論文の概要: EgoIntent: An Egocentric Step-level Benchmark for Understanding What, Why, and Next
- arxiv url: http://arxiv.org/abs/2603.12147v1
- Date: Thu, 12 Mar 2026 16:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.227908
- Title: EgoIntent: An Egocentric Step-level Benchmark for Understanding What, Why, and Next
- Title(参考訳): EgoIntent: 何、なぜ、次に起こるのかを理解するためのエゴセントリックなステップレベルのベンチマーク
- Authors: Ye Pan, Chi Kit Wong, Yuanhuiyi Lyu, Hanqian Li, Jiahao Huo, Jiacheng Chen, Lutao Jiang, Xu Zheng, Xuming Hu,
- Abstract要約: EgoIntentは、エゴセントリックビデオのためのステップレベルの意図理解ベンチマークである。
15の異なる屋内および屋外の日常生活シナリオにまたがる3,014のステップで構成されている。
各クリップは、クエリされたステップの重要な結果の直前に切り替わる。
- 参考スコア(独自算出の注目度): 52.87513180819888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable video reasoning capabilities across diverse tasks. However, their ability to understand human intent at a fine-grained level in egocentric videos remains largely unexplored. Existing benchmarks focus primarily on episode-level intent reasoning, overlooking the finer granularity of step-level intent understanding. Yet applications such as intelligent assistants, robotic imitation learning, and augmented reality guidance require understanding not only what a person is doing at each step, but also why and what comes next, in order to provide timely and context-aware support. To this end, we introduce EgoIntent, a step-level intent understanding benchmark for egocentric videos. It comprises 3,014 steps spanning 15 diverse indoor and outdoor daily-life scenarios, and evaluates models on three complementary dimensions: local intent (What), global intent (Why), and next-step plan (Next). Crucially, each clip is truncated immediately before the key outcome of the queried step (e.g., contact or grasp) occurs and contains no frames from subsequent steps, preventing future-frame leakage and enabling a clean evaluation of anticipatory step understanding and next-step planning. We evaluate 15 MLLMs, including both state-of-the-art closed-source and open-source models. Even the best-performing model achieves an average score of only 33.31 across the three intent dimensions, underscoring that step-level intent understanding in egocentric videos remains a highly challenging problem that calls for further investigation.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる驚くべきビデオ推論機能を示す。
しかし、エゴセントリックなビデオにおいて、人間の意図をきめ細かいレベルで理解する能力はほとんど解明されていない。
既存のベンチマークは主にエピソードレベルの意図推論に焦点を当てており、ステップレベルの意図理解のより細かい粒度を見下ろしている。
しかし、インテリジェントアシスタント、ロボット模倣学習、拡張現実ガイダンスといった応用は、人が各ステップで何をしているかを理解するだけでなく、タイムリーでコンテキストに応じたサポートを提供するために、次に来る理由と理由を理解する必要がある。
この目的のために、エゴセントリックビデオのためのステップレベルの意図理解ベンチマークであるEgoIntentを紹介した。
15の異なる屋内および屋外の日常生活シナリオにまたがる3,014のステップで構成され、局所的意図(What)、世界的意図(Why)、次段階計画(Next)の3つの相補的な次元のモデルを評価する。
各クリップは、クエリされたステップ(例えば、接触またはつかみ)のキー結果の直前に切断され、その後のステップからフレームを含まず、将来のフレームリークを防止し、予測ステップ理解及び次ステップ計画のクリーンな評価を可能にする。
我々は、最先端のクローズドソースモデルとオープンソースモデルの両方を含む15のMLLMを評価した。
最高のパフォーマンスモデルでさえ、3つの意図の次元の平均スコアは33.31点に過ぎず、エゴセントリックなビデオにおけるステップレベルの意図理解は、さらなる調査を求める非常に難しい問題である。
関連論文リスト
- EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning [63.010793398283134]
本研究では,多モーダルな言語モデルが,エゴセントリックな視点から行動の長期的物理的帰結を確実に推論できるかどうかを考察する。
EXPLORE-Benchは,様々なシナリオにまたがる実の1人称ビデオから算出したベンチマークである。
プロプライエタリでオープンソースのMLLMの実験では、人間にとって大きなパフォーマンスギャップが示される。
論文 参考訳(メタデータ) (2026-03-10T14:33:44Z) - HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos [2.6749843984691672]
ビデオセグメントの特徴を階層的なアクティビティスレッドで拡張する弱い教師付き手法であるHiEROを提案する。
ビデオクリップをナレーション付き記述に合わせることで、HiEROはコンテキスト的、意味的、時間的推論を階層的アーキテクチャで推論する。
論文 参考訳(メタデータ) (2025-05-19T09:47:41Z) - EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos [26.930652137352197]
我々は、EgoToMというビデオ質問応答ベンチマークを導入し、エゴセントリックなドメインに対する理論・オブ・ミンドの評価を拡張した。
因果ToMモデルを用いて、Ego4Dデータセットのマルチ選択ビデオQAインスタンスを生成し、カメラ装着者の目標、信念、次のアクションを予測する能力をベンチマークする。
これら3つの相互接続型推論問題に対して,人間と芸術マルチモーダル大言語モデル(MLLM)の性能について検討した。
論文 参考訳(メタデータ) (2025-03-28T05:10:59Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。