論文の概要: ORBIT: An Object Property Reasoning Benchmark for Visual Inference Tasks
- arxiv url: http://arxiv.org/abs/2508.10956v1
- Date: Thu, 14 Aug 2025 11:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.609919
- Title: ORBIT: An Object Property Reasoning Benchmark for Visual Inference Tasks
- Title(参考訳): ORBIT:ビジュアル推論タスクのためのオブジェクトプロパティ推論ベンチマーク
- Authors: Abhishek Kolari, Mohammadhossein Khojasteh, Yifan Jiang, Floris den Hengst, Filip Ilievski,
- Abstract要約: 本稿では,3つの代表型,複雑性増大の3つの推論レベル,および4つのオブジェクト特性次元の画像を用いた体系的評価フレームワークを提案する。
我々は、このベンチマークをORBITにインスタンス化する。これは、合計1,080のカウントベースの質問と組み合わせた360画像からなるオブジェクト特性のマルチレベル推論VQAベンチマークである。
ゼロショット設定で12の最先端のVLMを用いた実験では、最高のパフォーマンスモデルは40%の精度でしか達成できないため、人間に比べて大きな制限が示される。
- 参考スコア(独自算出の注目度): 10.848408092385192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While vision-language models (VLMs) have made remarkable progress on many popular visual question answering (VQA) benchmarks, it remains unclear whether they abstract and reason over depicted objects. Inspired by human object categorisation, object property reasoning involves identifying and recognising low-level details and higher-level abstractions. While current VQA benchmarks consider a limited set of object property attributes like size, they typically blend perception and reasoning, and lack representativeness in terms of reasoning and image categories. To this end, we introduce a systematic evaluation framework with images of three representative types, three reasoning levels of increasing complexity, and four object property dimensions driven by prior work on commonsense reasoning. We develop a procedure to instantiate this benchmark into ORBIT, a multi-level reasoning VQA benchmark for object properties comprising 360 images paired with a total of 1,080 count-based questions. Experiments with 12 state-of-the-art VLMs in zero-shot settings reveal significant limitations compared to humans, with the best-performing model only reaching 40\% accuracy. VLMs struggle particularly with realistic (photographic) images, counterfactual reasoning about physical and functional properties, and higher counts. ORBIT points to the need to develop methods for scalable benchmarking, generalize annotation guidelines, and explore additional reasoning VLMs. We make the ORBIT benchmark and the experimental code available to support such endeavors.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くの一般的な視覚的質問応答(VQA)ベンチマークにおいて顕著な進歩を遂げてきたが、それらが表現対象を抽象化し、理由付けしているかは不明である。
人間のオブジェクト分類にインスパイアされたオブジェクトプロパティ推論は、低レベルの詳細と高レベルの抽象化を特定し、認識する。
現行のVQAベンチマークでは、サイズなどのオブジェクトプロパティ属性の限定セットが検討されているが、一般的には認識と推論を混同し、推論と画像カテゴリの表現性が欠如している。
そこで本研究では,3つの代表型イメージ,複雑性増大の理由付けレベル,コモンセンス推論の先行研究により駆動される4つのオブジェクト特性次元を体系的に評価する枠組みを提案する。
我々は、このベンチマークをORBITにインスタンス化する手法を開発した。これは、合計1,080のカウントベースの質問と組み合わせた360画像からなるオブジェクト特性のマルチレベル推論VQAベンチマークである。
ゼロショット設定で12の最先端VLMを用いた実験では、最高のパフォーマンスモデルは40%の精度でしか達成できないため、人間に比べて大きな制限が示される。
VLMは、特に現実的な(写真)イメージ、物理的および機能的特性に関する反実的推論、より高いカウントに苦しむ。
ORBITは、スケーラブルなベンチマーク手法を開発し、ガイドラインを一般化し、さらなる推論VLMを探求する必要性を指摘している。
我々は、ORBITベンチマークと実験コードを、そのような取り組みをサポートするために利用できるようにします。
関連論文リスト
- Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning [14.984593408786045]
図形推論タスクにおける視覚言語モデル(VLM)の性能を評価するためにReasonBenchを提案する。
ReasonBenchには、現実世界のインテリジェンステストからの1,613の質問が含まれている。
我々は11の主流VLMをベンチマークし、現在のモデルの大幅な制限を明らかにした。
論文 参考訳(メタデータ) (2025-08-01T05:12:38Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。