論文の概要: EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning
- arxiv url: http://arxiv.org/abs/2603.09731v2
- Date: Thu, 12 Mar 2026 12:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.459246
- Title: EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning
- Title(参考訳): EXPLORE-Bench:ロングホライゾン推論によるエゴセントリックなシーン予測
- Authors: Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 本研究では,多モーダルな言語モデルが,エゴセントリックな視点から行動の長期的物理的帰結を確実に推論できるかどうかを考察する。
EXPLORE-Benchは,様々なシナリオにまたがる実の1人称ビデオから算出したベンチマークである。
プロプライエタリでオープンソースのMLLMの実験では、人間にとって大きなパフォーマンスギャップが示される。
- 参考スコア(独自算出の注目度): 63.010793398283134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly considered as a foundation for embodied agents, yet it remains unclear whether they can reliably reason about the long-term physical consequences of actions from an egocentric viewpoint. We study this gap through a new task, Egocentric Scene Prediction with LOng-horizon REasoning: given an initial-scene image and a sequence of atomic action descriptions, a model is asked to predict the final scene after all actions are executed. To enable systematic evaluation, we introduce EXPLORE-Bench, a benchmark curated from real first-person videos spanning diverse scenarios. Each instance pairs long action sequences with structured final-scene annotations, including object categories, visual attributes, and inter-object relations, which supports fine-grained, quantitative assessment. Experiments on a range of proprietary and open-source MLLMs reveal a significant performance gap to humans, indicating that long-horizon egocentric reasoning remains a major challenge. We further analyze test-time scaling via stepwise reasoning and show that decomposing long action sequences can improve performance to some extent, while incurring non-trivial computational overhead. Overall, EXPLORE-Bench provides a principled testbed for measuring and advancing long-horizon reasoning for egocentric embodied perception.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は、エンボディエージェントの基礎としてますます考えられているが、エゴセントリックな視点から行動の長期的な物理的影響を確実に説明できるかどうかは不明である。
我々は,このギャップを,Long-Horizon Reasoningを用いたエゴセントリックシーン予測(Egocentric Scene Prediction with LOng-Horizon Reasoning: 初期シーン画像と原子アクション記述のシーケンスを与えられた場合,全てのアクションの実行後に最終シーンを予測するようモデルに依頼する。
システム評価を実現するために,様々なシナリオにまたがる実1人ビデオから算出したベンチマークであるEXPLORE-Benchを導入する。
各インスタンスは、オブジェクトカテゴリ、視覚属性、オブジェクト間の関係を含む構造化された最終シーンアノテーションと長いアクションシーケンスをペアリングする。
プロプライエタリでオープンソースのMLLMの実験では、人間にとって大きなパフォーマンスギャップが示されており、長い水平自我中心の推論が依然として大きな課題であることを示している。
さらに、ステップワイズ推論によるテスト時間スケーリングを解析し、長いアクションシーケンスを分解することで、計算オーバーヘッドを発生させることなく、ある程度パフォーマンスを向上できることを示す。
全体として、EXPLORE-Benchは、エゴセントリックなエンボディード知覚のための長距離推論の測定と前進のための、原則化されたテストベッドを提供する。
関連論文リスト
- Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video? [1.1288535170985818]
本稿では,Glimpseにおける行動予測手法であるAAGを紹介する。
AAGは、RGB機能と単一のフレームからの深さキューを組み合わせることで、空間的推論を強化している。
以上の結果から,AAGを用いたマルチモーダル単一フレーム動作予測が競争力を発揮することが示された。
論文 参考訳(メタデータ) (2025-12-02T14:57:17Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。