論文の概要: Perceptual Taxonomy: Evaluating and Guiding Hierarchical Scene Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.19526v1
- Date: Mon, 24 Nov 2025 07:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.074069
- Title: Perceptual Taxonomy: Evaluating and Guiding Hierarchical Scene Reasoning in Vision-Language Models
- Title(参考訳): 知覚分類学:視覚・言語モデルにおける階層的シーン推論の評価と指導
- Authors: Jonathan Lee, Xingrui Wang, Jiawei Peng, Luoxin Ye, Zehan Zheng, Tiezheng Zhang, Tao Wang, Wufei Ma, Siyi Chen, Yu-Cheng Chou, Prakhar Kaushik, Alan Yuille,
- Abstract要約: 知覚分類学は、タスク関連特性を推測する場面理解の構造化過程である。
身体的根拠に基づく視覚的推論のためのベンチマークであるPerceptual Taxonomyを紹介する。
先進的な視覚言語モデルは認識タスクでは良好に機能するが、プロパティ駆動の質問では10~20%低下することを示す。
- 参考スコア(独自算出の注目度): 21.599546041542578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Perceptual Taxonomy, a structured process of scene understanding that first recognizes objects and their spatial configurations, then infers task-relevant properties such as material, affordance, function, and physical attributes to support goal-directed reasoning. While this form of reasoning is fundamental to human cognition, current vision-language benchmarks lack comprehensive evaluation of this ability and instead focus on surface-level recognition or image-text alignment. To address this gap, we introduce Perceptual Taxonomy, a benchmark for physically grounded visual reasoning. We annotate 3173 objects with four property families covering 84 fine-grained attributes. Using these annotations, we construct a multiple-choice question benchmark with 5802 images across both synthetic and real domains. The benchmark contains 28033 template-based questions spanning four types (object description, spatial reasoning, property matching, and taxonomy reasoning), along with 50 expert-crafted questions designed to evaluate models across the full spectrum of perceptual taxonomy reasoning. Experimental results show that leading vision-language models perform well on recognition tasks but degrade by 10 to 20 percent on property-driven questions, especially those requiring multi-step reasoning over structured attributes. These findings highlight a persistent gap in structured visual understanding and the limitations of current models that rely heavily on pattern matching. We also show that providing in-context reasoning examples from simulated scenes improves performance on real-world and expert-curated questions, demonstrating the effectiveness of perceptual-taxonomy-guided prompting.
- Abstract(参考訳): 本研究では,まず対象物とその空間的構成を認識し,目的指向の推論を支援するために材料,価格,機能,物理的属性などのタスク関連特性を推定するシーン理解の構造化プロセスであるPerceptual Taxonomyを提案する。
このような推論は人間の認識に基本的であるが、現在の視覚ベンチマークでは、この能力の包括的な評価が欠如しており、代わりに表面レベルの認識や画像テキストのアライメントに重点を置いている。
このギャップに対処するために、身体的根拠のある視覚的推論のためのベンチマークであるPerceptual Taxonomyを導入する。
84の微粒な属性を含む4つのプロパティファミリーを持つ3173のオブジェクトに注釈を付ける。
これらのアノテーションを用いて,合成ドメインと実ドメインの両方にわたる5802画像を用いた複数選択質問ベンチマークを構築した。
このベンチマークには、4つのタイプ(オブジェクト記述、空間的推論、プロパティマッチング、分類推論)にまたがる28033のテンプレートベースの質問と、知覚的分類推論の全スペクトルにわたるモデルを評価するために設計された50のエキスパートによる質問が含まれている。
実験結果から、先進視覚言語モデルは認識タスクでは良好に機能するが、プロパティ駆動の質問、特に構造化属性よりも多段階の推論を必要とする質問では10~20%劣化することがわかった。
これらの知見は、構造化された視覚的理解における永続的なギャップと、パターンマッチングに大きく依存する現在のモデルの限界を浮き彫りにしている。
また,シミュレートされたシーンから文脈内推論の例を提供することにより,実世界および専門家による質問に対する評価が向上し,知覚的タコノミー誘導によるプロンプトの有効性が示された。
関連論文リスト
- ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts [54.60525564599342]
ConceptScopeは、ビジュアルデータセットを分析するためのスケーラブルで自動化されたフレームワークである。
概念を、その意味的関連性とクラスラベルとの統計的相関に基づいて、ターゲット、コンテキスト、バイアスタイプに分類する。
既知のバイアスを確実に検出し、未発表のバイアスを発見できる。
論文 参考訳(メタデータ) (2025-10-30T06:46:17Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - ORBIT: An Object Property Reasoning Benchmark for Visual Inference Tasks [10.848408092385192]
本稿では,3つの代表型,複雑性増大の3つの推論レベル,および4つのオブジェクト特性次元の画像を用いた体系的評価フレームワークを提案する。
我々は、このベンチマークをORBITにインスタンス化する。これは、合計1,080のカウントベースの質問と組み合わせた360画像からなるオブジェクト特性のマルチレベル推論VQAベンチマークである。
ゼロショット設定で12の最先端のVLMを用いた実験では、最高のパフォーマンスモデルは40%の精度でしか達成できないため、人間に比べて大きな制限が示される。
論文 参考訳(メタデータ) (2025-08-14T11:28:40Z) - LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation [18.2932386988379]
本稿では,これらのモデルモデルにおける明瞭さの喪失が,「人工的な一般知性」などのメタファーにつながることを論じる。
この提案は、自然言語仕様に基づいて専門関数を近似する能力において、それらの一般化と潜在的な価値を見出すことである。
論文 参考訳(メタデータ) (2024-07-18T17:49:56Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Physical Reasoning and Object Planning for Household Embodied Agents [19.88210708022216]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
コントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと4つの広範囲なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content [6.434361163743876]
可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。
視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
論文 参考訳(メタデータ) (2021-10-08T23:37:25Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。