論文の概要: StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios
- arxiv url: http://arxiv.org/abs/2512.04451v1
- Date: Thu, 04 Dec 2025 04:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.992693
- Title: StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios
- Title(参考訳): StreamEQA: エンボディードシナリオのためのストリーミングビデオ理解を目指して
- Authors: Yifei Wang, Zhenkai Li, Tianwen Qian, Huanran Zheng, Zheng Wang, Yuqian Fu, Xiaoling Wang,
- Abstract要約: StreamEQAは、エンボディされたシナリオにおけるビデオ質問応答の最初のベンチマークである。
156個の独立した長編ビデオの上に構築され、正確なタイムスタンプで約21Kの質問応答ペアを生成する。
StreamEQAは、エンボディされたアプリケーションのためのストリーミングビデオ理解の研究を触媒することを期待しています。
- 参考スコア(独自算出の注目度): 33.70462645363648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As embodied intelligence advances toward real-world deployment, the ability to continuously perceive and reason over streaming visual inputs becomes essential. In such settings, an agent must maintain situational awareness of its environment, comprehend the interactions with surrounding entities, and dynamically plan actions informed by past observations, current contexts, and anticipated future events. To facilitate progress in this direction, we introduce StreamEQA, the first benchmark designed for streaming video question answering in embodied scenarios. StreamEQA evaluates existing MLLMs along two orthogonal dimensions: Embodied and Streaming. Along the embodied dimension, we categorize the questions into three levels: perception, interaction, and planning, which progressively assess a model's ability to recognize fine-grained visual details, reason about agent-object interactions, and perform high-level goal-directed reasoning. For the streaming dimension, questions are divided into backward, real-time, and forward reasoning, with each mode relying on a distinct temporal context. Built upon 156 independent long videos, StreamEQA defines 42 tasks and generates approximately 21K question-answer pairs with precise timestamps through a hybrid pipeline combining automated generation and human refinement. Evaluations of 13 state-of-the-art video-LLMs reveal that, despite strong performance on conventional benchmarks, these models still struggle with streaming video understanding in embodied scenarios. We hope StreamEQA will catalyze research on streaming video understanding for embodied applications.
- Abstract(参考訳): インテリジェンスの具体化が現実の展開へと進むにつれ、ストリーミングの視覚入力よりも継続的に知覚し、理由を判断する能力が不可欠となる。
このような状況下では、エージェントは環境に対する状況認識を維持し、周囲の実体との相互作用を理解し、過去の観測、現在の状況、将来の出来事を動的に計画しなければなりません。
この方向の進展を促進するために,本研究では,埋め込みシナリオでビデオ質問応答をストリーミングするための最初のベンチマークであるStreamEQAを紹介する。
StreamEQAは、既存のMLLMを2つの直交次元に沿って評価する。
具体的次元に沿って、これらの質問を知覚、相互作用、計画の3つのレベルに分類し、モデルが細粒度の視覚的詳細を認識する能力、エージェント・オブジェクトの相互作用に関する推論、高レベルの目標指向推論を実行する能力について、段階的に評価する。
ストリーミングディメンションでは、質問は後方、リアルタイム、前方の推論に分けられ、各モードは異なる時間的コンテキストに依存している。
StreamEQAは、42のタスクを定義し、自動生成と人間の洗練を組み合わせたハイブリッドパイプラインを通じて、正確なタイムスタンプで約21Kの質問応答ペアを生成する。
13の最先端のビデオ-LLMの評価によると、従来のベンチマークでは強いパフォーマンスがあったが、これらのモデルはまだエンボディされたシナリオでのストリーミングビデオ理解に苦戦している。
StreamEQAは、エンボディされたアプリケーションのためのストリーミングビデオ理解の研究を触媒することを期待しています。
関連論文リスト
- StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos [128.45606644157]
StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。
我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。
我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
論文 参考訳(メタデータ) (2025-12-01T14:15:44Z) - AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead [4.55107996328448]
Ahaは、自然言語で記述されたタスクに対する各ビデオフレームの関連性を予測する自動回帰ハイライト検出フレームワークである。
Ahaはハイライト検出ベンチマークで最先端(SOTA)のパフォーマンスを達成する。
我々は、タスク指向の自然言語入力と連続ロボット中心のビデオが与えられた現実世界のロボティクスアプリケーションに対するAhaの可能性を探求する。
論文 参考訳(メタデータ) (2025-09-19T21:03:00Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。