論文の概要: Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.16378v1
- Date: Fri, 23 Jan 2026 00:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.494644
- Title: Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models
- Title(参考訳): 認知にインスパイアされたトークンはマルチモーダルモデルにおいてエゴセントリックバイアスを克服する
- Authors: Bridget Leonard, Scott O. Murray,
- Abstract要約: マルチモーダル言語モデル(MLM)は、他のエージェントの視覚的視点を採用する必要がある空間的推論において失敗する。
人間の空間認識にインスパイアされた視点トークンは,(1)具体的身体キーポイント・キュー,あるいは(2)心的回転を支える抽象的表現によって,向きを符号化する。
総合的および自然主義的なベンチマーク全体において、パースペクティブトークンは精度を向上し、ローテーションベースのトークンは非人間参照エージェントに一般化される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLMs) perform well on semantic vision-language tasks but fail at spatial reasoning that requires adopting another agent's visual perspective. These errors reflect a persistent egocentric bias and raise questions about whether current models support allocentric reasoning. Inspired by human spatial cognition, we introduce perspective tokens, specialized embeddings that encode orientation through either (1) embodied body-keypoint cues or (2) abstract representations supporting mental rotation. Integrating these tokens into LLaVA-1.5-13B yields performance on level-2 visual perspective-taking tasks. Across synthetic and naturalistic benchmarks (Isle Bricks V2, COCO, 3DSRBench), perspective tokens improve accuracy, with rotation-based tokens generalizing to non-human reference agents. Representational analyses reveal that fine-tuning enhances latent orientation sensitivity already present in the base model, suggesting that MLMs contain precursors of allocentric reasoning but lack appropriate internal structure. Overall, embedding cognitively grounded spatial structure directly into token space provides a lightweight, model-agnostic mechanism for perspective-taking and more human-like spatial reasoning.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)は、意味的視覚言語タスクではうまく機能するが、他のエージェントの視覚的視点を採用する必要がある空間的推論では失敗する。
これらの誤りは、永続的な自己中心的バイアスを反映し、現在のモデルが同心的推論をサポートするかどうかに関する疑問を提起する。
人間の空間認知に触発されて,(1)具体化された身体キーポイント・キュー,あるいは(2)心的回転を支える抽象的な表現を通じて向きを符号化する,視点トークン,特殊な埋め込みを導入する。
これらのトークンをLLaVA-1.5-13Bに統合すると、レベル2の視覚的視点取得タスクのパフォーマンスが得られる。
総合的および自然主義的なベンチマーク(Isle Bricks V2, COCO, 3DSRBench)を通じて、パースペクティブトークンは精度を向上し、回転ベースのトークンは人間以外の参照エージェントに一般化する。
表現的分析により、微調整はベースモデルにすでに存在する潜在配向感度を高めることが示され、MLMはアロセントリックな推論の前駆体を含むが、適切な内部構造を持たないことが示唆された。
全体として、認知的に接地された空間構造を直接トークン空間に埋め込むことは、視点を取るための軽量でモデルに依存しないメカニズムと、より人間らしい空間的推論を提供する。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。