論文の概要: StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios
- arxiv url: http://arxiv.org/abs/2512.04451v1
- Date: Thu, 04 Dec 2025 04:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.992693
- Title: StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios
- Title(参考訳): StreamEQA: エンボディードシナリオのためのストリーミングビデオ理解を目指して
- Authors: Yifei Wang, Zhenkai Li, Tianwen Qian, Huanran Zheng, Zheng Wang, Yuqian Fu, Xiaoling Wang,
- Abstract要約: StreamEQAは、エンボディされたシナリオにおけるビデオ質問応答の最初のベンチマークである。
156個の独立した長編ビデオの上に構築され、正確なタイムスタンプで約21Kの質問応答ペアを生成する。
StreamEQAは、エンボディされたアプリケーションのためのストリーミングビデオ理解の研究を触媒することを期待しています。
- 参考スコア(独自算出の注目度): 33.70462645363648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As embodied intelligence advances toward real-world deployment, the ability to continuously perceive and reason over streaming visual inputs becomes essential. In such settings, an agent must maintain situational awareness of its environment, comprehend the interactions with surrounding entities, and dynamically plan actions informed by past observations, current contexts, and anticipated future events. To facilitate progress in this direction, we introduce StreamEQA, the first benchmark designed for streaming video question answering in embodied scenarios. StreamEQA evaluates existing MLLMs along two orthogonal dimensions: Embodied and Streaming. Along the embodied dimension, we categorize the questions into three levels: perception, interaction, and planning, which progressively assess a model's ability to recognize fine-grained visual details, reason about agent-object interactions, and perform high-level goal-directed reasoning. For the streaming dimension, questions are divided into backward, real-time, and forward reasoning, with each mode relying on a distinct temporal context. Built upon 156 independent long videos, StreamEQA defines 42 tasks and generates approximately 21K question-answer pairs with precise timestamps through a hybrid pipeline combining automated generation and human refinement. Evaluations of 13 state-of-the-art video-LLMs reveal that, despite strong performance on conventional benchmarks, these models still struggle with streaming video understanding in embodied scenarios. We hope StreamEQA will catalyze research on streaming video understanding for embodied applications.
- Abstract(参考訳): インテリジェンスの具体化が現実の展開へと進むにつれ、ストリーミングの視覚入力よりも継続的に知覚し、理由を判断する能力が不可欠となる。
このような状況下では、エージェントは環境に対する状況認識を維持し、周囲の実体との相互作用を理解し、過去の観測、現在の状況、将来の出来事を動的に計画しなければなりません。
この方向の進展を促進するために,本研究では,埋め込みシナリオでビデオ質問応答をストリーミングするための最初のベンチマークであるStreamEQAを紹介する。
StreamEQAは、既存のMLLMを2つの直交次元に沿って評価する。
具体的次元に沿って、これらの質問を知覚、相互作用、計画の3つのレベルに分類し、モデルが細粒度の視覚的詳細を認識する能力、エージェント・オブジェクトの相互作用に関する推論、高レベルの目標指向推論を実行する能力について、段階的に評価する。
ストリーミングディメンションでは、質問は後方、リアルタイム、前方の推論に分けられ、各モードは異なる時間的コンテキストに依存している。
StreamEQAは、42のタスクを定義し、自動生成と人間の洗練を組み合わせたハイブリッドパイプラインを通じて、正確なタイムスタンプで約21Kの質問応答ペアを生成する。
13の最先端のビデオ-LLMの評価によると、従来のベンチマークでは強いパフォーマンスがあったが、これらのモデルはまだエンボディされたシナリオでのストリーミングビデオ理解に苦戦している。
StreamEQAは、エンボディされたアプリケーションのためのストリーミングビデオ理解の研究を触媒することを期待しています。
関連論文リスト
- StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos [128.45606644157]
StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。
我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。
我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
論文 参考訳(メタデータ) (2025-12-01T14:15:44Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead [4.55107996328448]
Ahaは、自然言語で記述されたタスクに対する各ビデオフレームの関連性を予測する自動回帰ハイライト検出フレームワークである。
Ahaはハイライト検出ベンチマークで最先端(SOTA)のパフォーマンスを達成する。
我々は、タスク指向の自然言語入力と連続ロボット中心のビデオが与えられた現実世界のロボティクスアプリケーションに対するAhaの可能性を探求する。
論文 参考訳(メタデータ) (2025-09-19T21:03:00Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - A Challenge to Build Neuro-Symbolic Video Agents [5.243155799248514]
ニューロシンボリック・パースペクティブは、どのように解釈可能性を高め、構造化推論を可能にし、システム行動に対するより強力な保証を提供するかを示す。
我々は,次世代のインテリジェントビデオエージェントの開発という,研究コミュニティに大きな課題を提示する。
これらの柱に対処することで、受動的知覚から、推論、予測、行動を行うインテリジェントなビデオエージェントへの移行が可能になります。
論文 参考訳(メタデータ) (2025-05-20T02:53:21Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。