論文の概要: Seeing Isn't Orienting: A Cognitively Grounded Benchmark Reveals Systematic Orientation Failures in MLLMs Supplementary
- arxiv url: http://arxiv.org/abs/2603.11410v1
- Date: Thu, 12 Mar 2026 00:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.738126
- Title: Seeing Isn't Orienting: A Cognitively Grounded Benchmark Reveals Systematic Orientation Failures in MLLMs Supplementary
- Title(参考訳): 方向性を見ない - MLLM の体系的指向障害に対する認知的根拠に基づくベンチマーク
- Authors: Nazia Tasnim, Keanu Nichols, Yuting Yang, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan A. Plummer,
- Abstract要約: 現在の視覚言語ベンチマークは、方向と位置と一般的なシーン理解とを概ね説明している。
本稿では,オブジェクト指向を主ターゲットとする階層型ベンチマークである識別指向推論インテリジェンス(DORI)を紹介する。
DORIは、現実世界および合成環境で67のオブジェクトカテゴリをカバーする、33,656の多重選択質問を提供する。
- 参考スコア(独自算出の注目度): 24.852775714606224
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans learn object orientation progressively, from recognizing which way an object faces, to mentally rotating it, to reasoning about orientations between objects. Current vision-language benchmarks largely conflate orientation with position and general scene understanding. We introduce Discriminative Orientation Reasoning Intelligence (DORI), a cognitively grounded hierarchical benchmark that makes object orientation the primary target. Inspired by stages of human orientation cognition, DORI decomposes orientation into four dimensions, each evaluated at coarse (categorical) and granular (metric) levels. Composed from 13,652 images across 14 sources, DORI provides 33,656 multiple-choice questions covering 67 object categories in real-world and synthetic settings. Its coarse-to-granular design isolates orientation from confounds such as object recognition difficulty, scene clutter, and linguistic ambiguity via bounding-box isolation, standardized spatial reference frames, and structured prompts. Evaluating 24 state-of-the-art vision-language models shows a clear pattern: models that perform well on general spatial benchmarks are near-random on object-centric orientation tasks. The best models reach only 54.2% on coarse and 45.0% on granular judgments, with largest failures on compound rotations and shifts in inter-object reference frames. Large coarse-to-granular gaps reveal reliance on categorical heuristics rather than geometric reasoning, a limitation hidden by existing benchmarks. These results identify orientation understanding as an unsolved challenge for multimodal systems, with implications for robotic manipulation, 3D scene reconstruction, and human-AI interaction.
- Abstract(参考訳): 人間は、物体がどの方向を向いているかを認識することから、それを精神的に回転させ、物体間の方向について推論することまで、段階的に物体の向きを学習する。
現在の視覚言語ベンチマークは、方向と位置と一般的なシーン理解とを概ね説明している。
本稿では,オブジェクト指向を主ターゲットとする認知的階層型ベンチマークである差別指向推論インテリジェンス(DORI)を紹介する。
DORIは、人間の指向認知の段階から着想を得て、向きを4次元に分解し、それぞれが粗い(カテゴリー)と粒度(測定値)で評価する。
DORIは14のソースにわたる13,652の画像で構成され、現実世界と合成環境における67のオブジェクトカテゴリをカバーする33,656の多重選択質問を提供する。
粗い粒度の設計は、オブジェクト認識の難易度、シーンのクラッタ、境界ボックス分離、標準化された空間参照フレーム、構造化プロンプトなどによる言語的あいまいさなどの相違点から向きを分離する。
24の最先端の視覚言語モデルを評価すると、明確なパターンが示される: 一般的な空間的ベンチマークでうまく機能するモデルは、オブジェクト指向指向タスクではほとんどランダムである。
最良のモデルは粗さで54.2%、粒度の判断で45.0%にしか達せず、複合回転やオブジェクト間の参照フレームのシフトで最大の失敗がある。
大きな粗粒間ギャップは、既存のベンチマークによって隠された制限である幾何学的推論よりもカテゴリー的ヒューリスティックに頼っていることを示している。
これらの結果は,ロボット操作,3次元シーン再構築,人間とAIのインタラクションなど,多モードシステムにおけるオリエンテーション理解を未解決の課題とみなす。
関連論文リスト
- Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks [17.357441373079382]
本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。
DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。
最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。
DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
論文 参考訳(メタデータ) (2025-05-27T18:22:44Z) - Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-04-09T17:59:05Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [50.060274413294586]
自然言語を用いてオブジェクト指向を定義するセマンティック・オリエンテーションの概念を導入する。
我々のSoFarフレームワークは, VLMエージェントにセマンティックオリエンテーションを組み込むことで, 6-DoF空間推論を可能にし, ロボット行動を生成する。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。