論文の概要: Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision
- arxiv url: http://arxiv.org/abs/2604.21461v1
- Date: Thu, 23 Apr 2026 09:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.405327
- Title: Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision
- Title(参考訳): MLLMはポインティングに従わないか?-エゴセントリックビジョンにおける参照推論のベンチマークと強化
- Authors: Chentao Li, Zirui Gao, Mingze Gao, Yinglian Ren, Jianjiang Feng, Jie Zhou,
- Abstract要約: EgoPoint-Benchは、egocentric viewにおけるマルチモーダルポインティング推論の評価と強化を目的とした総合的な質問応答ベンチマークである。
合成データに微調整を施したモデルが,性能向上とロバストなsim-to-realの一般化を実現していることを示す。
この研究は、空間的に意識された監視の重要性を強調し、正確な自我中心のAIアシスタントへのスケーラブルなパスを提供する。
- 参考スコア(独自算出の注目度): 22.502853661316028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric AI agents, such as smart glasses, rely on pointing gestures to resolve referential ambiguities in natural language commands. However, despite advancements in Multimodal Large Language Models (MLLMs), current systems often fail to precisely ground the spatial semantics of pointing. Instead, they rely on spurious correlations with visual proximity or object saliency, a phenomenon we term "Referential Hallucination." To address this gap, we introduce EgoPoint-Bench, a comprehensive question-answering benchmark designed to evaluate and enhance multimodal pointing reasoning in egocentric views. Comprising over 11k high-fidelity simulated and real-world samples, the benchmark spans five evaluation dimensions and three levels of referential complexity. Extensive experiments demonstrate that while state-of-the-art proprietary and open-source models struggle with egocentric pointing, models fine-tuned on our synthetic data achieve significant performance gains and robust sim-to-real generalization. This work highlights the importance of spatially aware supervision and offers a scalable path toward precise egocentric AI assistants. Project page: https://guyyyug.github.io/EgoPoint-Bench/
- Abstract(参考訳): スマートグラスのようなエゴセントリックなAIエージェントは、自然言語コマンドにおける参照のあいまいさを解決するために、指示ジェスチャに依存している。
しかし、MLLM(Multimodal Large Language Models)の進歩にもかかわらず、現在のシステムはポインティングの空間的意味論を正確に理解できないことが多い。
その代わりに、視覚的近接性や物体の塩分濃度と急激な相関関係(Referential Hallucination)に依存している。
このギャップに対処するため,エゴセントリックな視点でのマルチモーダルポインティング推論の評価と拡張を目的とした総合的な質問応答ベンチマークであるEgoPoint-Benchを紹介した。
11k以上の高忠実度と実世界のサンプルを補完し、ベンチマークは5つの評価次元と3レベルの参照複雑性にまたがる。
大規模な実験により、最先端のプロプライエタリモデルとオープンソースモデルは、エゴセントリックな指摘に苦しむ一方で、我々の合成データに微調整されたモデルは、大幅な性能向上とロバストなsim-to-realの一般化を実現していることが示された。
この研究は、空間的に意識された監視の重要性を強調し、正確な自我中心のAIアシスタントへのスケーラブルなパスを提供する。
プロジェクトページ: https://guyyug.github.io/EgoPoint-Bench/
関連論文リスト
- Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies [40.03295633717008]
視覚錯覚と異常のモデル性能を探索するベンチマークであるVIA-Benchを紹介する。
我々は1K以上の高品質な問合せ対を構築し、微妙な視覚的推論を必要とする。
以上の結果から,知覚的ボトルネックの解消が人工知能の進歩に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-02T08:48:03Z) - Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions [18.455501447828343]
空間知能(SI)は視覚言語モデル(VLM)に大きく依存している
画素レベルの入力を必要としない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであるSiT-Benchを紹介する。
空間的推論により性能が著しく向上し,LLMには潜在的世界モデリングの可能性があることが示唆された。
論文 参考訳(メタデータ) (2026-01-07T05:13:52Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。