論文の概要: Learning Situated Awareness in the Real World
- arxiv url: http://arxiv.org/abs/2602.16682v1
- Date: Wed, 18 Feb 2026 18:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.680548
- Title: Learning Situated Awareness in the Real World
- Title(参考訳): 現実世界における位置認識の学習
- Authors: Chuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang,
- Abstract要約: SAW-Benchは、実世界のビデオを用いて自我中心的な位置認識を評価するための新しいベンチマークである。
6つの異なる認識タスクでモデルのオブザーバ中心の理解を探索する。
我々の総合評価では、最高のMFMであるGemini 3 Flashでさえ、人間モデルのパフォーマンスギャップは37.66%である。
- 参考スコア(独自算出の注目度): 63.75211123289058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.
- Abstract(参考訳): 人間の知覚の中核的な側面は、周囲の物理的環境と自分自身を関連付ける能力、文脈における行動の可能性に対する推論である。
しかし、MFM(Multimodal foundation model)の既存のベンチマークでは、環境中心の空間関係(シーン内のオブジェクト間の関係)が強調されている。
このギャップを埋めるために,実世界のビデオを用いて自我中心的な位置認識を評価するための新しいベンチマークであるSAW-Bench(Situated Awareness in the Real World)を紹介する。
SAW-Benchは、Ray-Ban Meta(Gen2)で撮影した786の自記録ビデオと、さまざまな屋内および屋外環境にまたがるスマートグラスと、2,071組の人間による質問応答ペアで構成されている。
6つの異なる認識タスクでモデルのオブザーバ中心の理解を探索する。
我々の総合評価では、最高のMFMであるGemini 3 Flashでさえ、人間モデルのパフォーマンスギャップは37.66%である。
例えば、モデルがエゴセントリックなビデオで部分的な幾何学的手がかりを活用できる一方で、コヒーレントなカメラの幾何学を推測することがしばしばあり、体系的な空間的推論エラーをもたらす。
我々はSAW-Benchを位置空間知能のベンチマークとして位置づけ、受動的観測を超えて、物理的に接地されたオブザーバ中心のダイナミクスを理解する。
関連論文リスト
- EgoSound: Benchmarking Sound Understanding in Egocentric Videos [68.1897133235638]
MLLMにおけるエゴセントリックな音の理解を評価するための最初のベンチマークであるEgoSoundを紹介する。
EgoSoundは、Ego4DとEgoBlindのデータを統合する。
固有音知覚、空間的局所化、因果推論、および相互モーダル推論にまたがる7つのタスクの分類を定義している。
論文 参考訳(メタデータ) (2026-02-15T12:46:35Z) - Egocentric Bias in Vision-Language Models [11.385014698426088]
本稿では、視覚言語モデルにおけるレベル2視覚視点撮影(L2 VPT)の診断ベンチマークであるFlipSetを紹介する。
このタスクは、他のエージェントの視点から2D文字列の180度の回転をシミュレートする必要がある。
FlipSetは、マルチモーダルシステムにおける視点取得能力を診断するための認知的基盤のあるテストベッドを提供する。
論文 参考訳(メタデータ) (2026-02-10T03:51:00Z) - ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction [35.24704057622881]
身体的認知は、知性は受動的観察よりも知覚的相互作用から生じると主張する。
我々は,エゴセントリックな相互作用から世界モデリングとしての認知の具体化を評価するベンチマークENACTを紹介する。
論文 参考訳(メタデータ) (2025-11-26T00:06:02Z) - Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文 参考訳(メタデータ) (2025-06-26T16:38:19Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。
実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。
我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文 参考訳(メタデータ) (2025-01-31T11:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。