論文の概要: EgoProx: Evaluating MLLMs on Egocentric 3D Proximity Reasoning Across a Cognitive Hierarchy
- arxiv url: http://arxiv.org/abs/2605.24456v2
- Date: Tue, 26 May 2026 08:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.072896
- Title: EgoProx: Evaluating MLLMs on Egocentric 3D Proximity Reasoning Across a Cognitive Hierarchy
- Title(参考訳): EgoProx: 認知階層全体にわたって推論するエゴセントリックな3次元近接性に基づくMLLMの評価
- Authors: Jinzhao Li, Yinuo Chen, Dongxu Piao, Panwang Pan, Yifan Yu, Dong Wang, Honglei Yan, Liang Yue, Shaofei Wang, Yixin Chen, Siyuan Huang, Miao Liu,
- Abstract要約: EgoProxは、エゴ中心の3D近接推論のベンチマークである。
私たちは、意図、探索、搾取、行動の連鎖推論を網羅して、認知的連鎖に沿ってタスクを組織化します。
- 参考スコア(独自算出の注目度): 21.116389181097254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans constantly reason about 3D proximity, the relations between their body and surrounding objects, to guide perception and action in daily life. Whether multimodal large language models (MLLMs) can perform such embodied 3D reasoning remains unclear. To this end, we introduce EgoProx, a benchmark for egocentric 3D proximity reasoning. We organize our tasks along a cognitive chain, covering intention, exploration, exploitation, and chain-of-actions reasoning. We also design an agent based data engine that produces diverse and consistent QA pairs at scale. We benchmark prevailing MLLMs on EgoProx and conduct additional analyses with dataset specific and task specific instruction tuning. We observe large cross-domain gains, indicating that current MLLMs contain some spatial knowledge; however, they still struggle to effectively leverage it for spatial reasoning VQA.
- Abstract(参考訳): 人間は常に3D近接、体と周囲の物体の関係について推論し、日常生活における知覚と行動を導く。
マルチモーダルな大言語モデル(MLLM)がこのような3D推論を具体化できるかどうかは不明だ。
この目的のために、エゴセントリックな3D近接推論のベンチマークであるEgoProxを紹介する。
私たちは、意図、探索、搾取、行動の連鎖推論を網羅して、認知的連鎖に沿ってタスクを組織化します。
また,多種多様で一貫したQAペアを大規模に生成するエージェントベースのデータエンジンを設計する。
我々は、EgoProx上でMLLMをベンチマークし、データセット固有およびタスク固有命令チューニングによる追加分析を行う。
本研究では,現在のMLLMには空間的知識がいくつか含まれていることを示すとともに,空間的推論VQAの活用に苦慮している。
関連論文リスト
- EgoCoT-Bench: Benchmarking Grounded and Verifiable Operation-Centric Chain of Thought Reasoning for MLLMs [23.973683864983272]
EgoT-Benchは、接地的で検証可能な操作中心の推論のための微細なエゴセントリックなベンチマークである。
EgoT-Benchは、3,172対のQAペアを351対の自我中心の振り返りビデオで構成している。
論文 参考訳(メタデータ) (2026-05-19T09:02:20Z) - Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision [22.502853661316028]
EgoPoint-Benchは、egocentric viewにおけるマルチモーダルポインティング推論の評価と強化を目的とした総合的な質問応答ベンチマークである。
合成データに微調整を施したモデルが,性能向上とロバストなsim-to-realの一般化を実現していることを示す。
この研究は、空間的に意識された監視の重要性を強調し、正確な自我中心のAIアシスタントへのスケーラブルなパスを提供する。
論文 参考訳(メタデータ) (2026-04-23T09:15:42Z) - EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs [36.84953281346447]
EgoMindはChainof-Thoughtフレームワークで、RolePlay Captionを通じて幾何学のない空間推論を可能にする。
5Kサンプルと20K RLサンプルだけで、EgoMindはMLLMBenchs、SITEBench、SPBenchで有効である。
論文 参考訳(メタデータ) (2026-04-01T15:28:13Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [51.774165536666864]
SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。
Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。
実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-17T13:40:00Z) - The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? [42.3970767778131]
3次元大規模言語モデル (LLM) は点雲における空間情報を利用して3次元空間推論を行う。
いくつかの有望な結果にもかかわらず、3次元空間的推論における点雲の役割は未解明のままである。
textitDoesポイントクラウドは、3D LLMの空間的推論能力を大幅に向上させるのか?
論文 参考訳(メタデータ) (2025-04-06T16:38:48Z) - EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos [26.930652137352197]
我々は、EgoToMというビデオ質問応答ベンチマークを導入し、エゴセントリックなドメインに対する理論・オブ・ミンドの評価を拡張した。
因果ToMモデルを用いて、Ego4Dデータセットのマルチ選択ビデオQAインスタンスを生成し、カメラ装着者の目標、信念、次のアクションを予測する能力をベンチマークする。
これら3つの相互接続型推論問題に対して,人間と芸術マルチモーダル大言語モデル(MLLM)の性能について検討した。
論文 参考訳(メタデータ) (2025-03-28T05:10:59Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。