論文の概要: RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks
- arxiv url: http://arxiv.org/abs/2509.23673v1
- Date: Sun, 28 Sep 2025 06:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.366477
- Title: RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks
- Title(参考訳): RCI:マルチモーダルベンチマークにおけるグローバルおよびローカル推論の評価スコア
- Authors: Amit Agarwal, Hitesh Laxmichand Patel, Srikant Panda, Hansa Meghwani, Jyotika Singh, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth,
- Abstract要約: リージョンインデックス(RCI)は、データセットがグローバルとローカルの視覚情報に依存することを定量化する最初のモデルベースのスコアである。
RCIを広く使用されている13のマルチモーダルベンチマークに適用すると,そのほとんどは局所的推論を好んでいることがわかった。
- 参考スコア(独自算出の注目度): 33.68425991692674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved impressive results on vision-language benchmarks, yet it remains unclear whether these benchmarks assess genuine global reasoning or allow success via localized visual cues. Existing evaluation methods do not explicitly measure this distinction, hindering effective dataset curation and real-world focused model development. We introduce Region Comprehension Index (RCI), the first model-based score to directly quantify a dataset's reliance on global versus local visual information. RCI systematically compares reference-model performance on image patches versus full images, revealing if tasks require holistic image understanding or can be solved with partial or localized visual cues. When applying RCI to 13 widely used multimodal benchmarks, we observed that most of them favor localized reasoning and exhibit significant spatial biases, indicating potential risks in real-world applications. RCI equips researchers & practitioners with an actionable tool for diagnosing & mitigating these biases, enabling the construction of datasets and benchmarks to foster the development of robust, enterprise-ready multimodal systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ヴィジュアルベンチマークにおいて印象的な結果を得たが、これらのベンチマークが真のグローバルな推論を評価したのか、ローカライズされたビジュアルキューで成功を許したのかは不明だ。
既存の評価手法は、この区別を明示的に測定するものではなく、効果的なデータセットキュレーションと実世界のモデル開発を妨げる。
地域包括指数(RCI)は、データセットがグローバルとローカルの視覚情報に依存していることを直接的に定量化する最初のモデルベースのスコアである。
RCIは、画像パッチの参照モデルパフォーマンスとフルイメージを体系的に比較し、タスクが全体像理解を必要とするか、あるいは部分的または局所的な視覚的手がかりで解決できるかを明らかにする。
RCIを広く使用されている13のマルチモーダル・ベンチマークに適用すると、そのほとんどが局所的推論を好んでおり、空間バイアスが顕著であり、現実世界の応用における潜在的なリスクが示唆される。
RCIは、これらのバイアスを診断し緩和するための実行可能なツールを研究者や実践者に提供し、データセットとベンチマークの構築を可能にし、堅牢でエンタープライズ対応のマルチモーダルシステムの開発を促進する。
関連論文リスト
- KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - Datasets for Fairness in Language Models: An In-Depth Survey [13.944063655545898]
言語モデル研究において最も広く使われている公平性データセットを包括的に分析する。
本稿では,ベンチマークおよびスコアリング指標間での人口格差の一貫したパターンを明らかにする統一評価フレームワークを提案する。
我々の発見は、より広い範囲の社会的文脈と公平性の概念を捉えた新しいベンチマークに対する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-06-29T22:11:58Z) - RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。