論文の概要: Egocentric Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.15892v1
- Date: Tue, 10 Feb 2026 03:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.367104
- Title: Egocentric Bias in Vision-Language Models
- Title(参考訳): Egocentric Bias in Vision-Language Models (特集 バイオサイバネティックス)
- Authors: Maijunxian Wang, Yijiang Li, Bingyang Wang, Tianwei Zhao, Ran Ji, Qingying Gao, Emmy Liu, Hokin Deng, Dezhi Luo,
- Abstract要約: 本稿では、視覚言語モデルにおけるレベル2視覚視点撮影(L2 VPT)の診断ベンチマークであるFlipSetを紹介する。
このタスクは、他のエージェントの視点から2D文字列の180度の回転をシミュレートする必要がある。
FlipSetは、マルチモーダルシステムにおける視点取得能力を診断するための認知的基盤のあるテストベッドを提供する。
- 参考スコア(独自算出の注目度): 11.385014698426088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual perspective taking--inferring how the world appears from another's viewpoint--is foundational to social cognition. We introduce FlipSet, a diagnostic benchmark for Level-2 visual perspective taking (L2 VPT) in vision-language models. The task requires simulating 180-degree rotations of 2D character strings from another agent's perspective, isolating spatial transformation from 3D scene complexity. Evaluating 103 VLMs reveals systematic egocentric bias: the vast majority perform below chance, with roughly three-quarters of errors reproducing the camera viewpoint. Control experiments expose a compositional deficit--models achieve high theory-of-mind accuracy and above-chance mental rotation in isolation, yet fail catastrophically when integration is required. This dissociation indicates that current VLMs lack the mechanisms needed to bind social awareness to spatial operations, suggesting fundamental limitations in model-based spatial reasoning. FlipSet provides a cognitively grounded testbed for diagnosing perspective-taking capabilities in multimodal systems.
- Abstract(参考訳): 視覚的視点 他者の視点から世界がどのように見えるかを考えることは、社会的認知の基礎である。
本稿では、視覚言語モデルにおけるレベル2視覚視点撮影(L2 VPT)の診断ベンチマークであるFlipSetを紹介する。
このタスクは、他のエージェントの視点から180度の2次元文字列の回転をシミュレートし、3次元シーンの複雑さから空間変換を分離する必要がある。
103のVLMを評価すると、体系的なエゴセントリックな偏見が示され、大半が確率以下で、約4分の3のエラーがカメラの視点を再現している。
制御実験は構成的欠陥を露呈する - 高理論の精度と高頻度の心的回転を単独で達成するが、統合が必要な場合には破滅的に失敗する。
この解離は、現在のVLMには、空間的操作に対する社会的意識の結合に必要なメカニズムが欠如していることを示し、モデルに基づく空間的推論の基本的な制限を示唆している。
FlipSetは、マルチモーダルシステムにおける視点取得能力を診断するための認知的基盤のあるテストベッドを提供する。
関連論文リスト
- The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs [44.71703930770065]
The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。
知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
論文 参考訳(メタデータ) (2025-12-17T20:22:23Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - Imagine in Space: Exploring the Frontier of Spatial Intelligence and Reasoning Efficiency in Vision Language Models [23.12717700882611]
空間的推論は人間の認知の基本的な構成要素です
現在の大規模言語モデル(LLM)と視覚言語モデル(VLM)は、論理的推論、問題解決、意思決定にまたがる顕著な推論能力を示している。
我々は空間状態の内部シミュレーションである想像力が空間世界モデルにおける支配的な推論機構であると仮定する。
論文 参考訳(メタデータ) (2025-11-16T03:09:55Z) - MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [97.61985090279961]
視覚言語モデルのためのテスト時間スケーリングフレームワークであるMindJourneyを提案する。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均7.7%以上の性能向上を達成したことを示す。
また,本手法は,強化学習により訓練した試験時間推定VLMも改善する。
論文 参考訳(メタデータ) (2025-07-16T17:59:36Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Ego3DPose: Capturing 3D Cues from Binocular Egocentric Views [9.476008200056082]
Ego3DPoseは、高度に高精度な両眼エゴ中心型3Dポーズ再構築システムである。
両眼熱マップと独立に手足のポーズを推定する経路を持つ2経路ネットワークアーキテクチャを提案する。
三角法を用いた新しい視点認識表現を提案し,手足の3次元方向を推定する。
論文 参考訳(メタデータ) (2023-09-21T10:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。