論文の概要: StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
- arxiv url: http://arxiv.org/abs/2512.01707v1
- Date: Mon, 01 Dec 2025 14:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.887613
- Title: StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
- Title(参考訳): StreamGaze: ゲームガイドによる時間的推論とストリーミングビデオの積極的な理解
- Authors: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal,
- Abstract要約: StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。
我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。
我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
- 参考スコア(独自算出の注目度): 128.45606644157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.
- Abstract(参考訳): ビデオの理解をストリーミングするには、時間的にやってくるフレームを処理するだけでなく、ARグラスのような現実的なアプリケーションに対するユーザの意図を予測する必要がある。
事前のストリーミングベンチマークは時間的推論を評価するが、MLLMがストリーミング設定内で人間の視線信号を解釈または活用できるかどうかを計測することはない。
このギャップを埋めるために、ストリーミングビデオにおける時間的および前向きな推論において、MLLMが視線をどのように効果的に利用するかを評価するために設計された最初のベンチマークであるStreamGazeを紹介する。
StreamGazeは、視線誘導された過去、現在、そしてアクティブなタスクを導入し、ストリーミングビデオ理解を包括的に評価する。
これらのタスクは、リアルタイムの視線を使用して、注視の変化に追随し、過去と現在観察されているフレームからユーザーの意図を推測することができるかどうかを評価する。
StreamGazeを構築するために、固定抽出、地域固有の視覚プロンプト、スキャンパス構築により、自我中心の動画と生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。
このパイプラインは、人間の知覚力学を忠実に反映した時空間的なQAペアを生成する。
StreamGazeのタスク全体にわたって、最先端のMLLMと人的パフォーマンスの大幅なパフォーマンスギャップを観察し、視線に基づく時間的推論、意図モデリング、前向きな予測に根本的な制限を明らかにする。
さらに、視線伝播戦略、推論行動、タスク固有の障害モードを詳細に分析し、現在のMLLMがなぜ苦しむのか、将来のモデルが開発すべき機能についてより深い洞察を提供する。
すべてのデータとコードは公開され、視線誘導によるストリーミングビデオ理解の継続的な研究をサポートする。
関連論文リスト
- Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文 参考訳(メタデータ) (2025-10-24T11:33:03Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting [12.567763863700058]
EgoGazeVQAは、エゴセントリックな視線誘導型ビデオ質問応答ベンチマークである。
実験の結果,既存のMLLMはユーザの意図を正確に解釈するのに苦労していることがわかった。
我々の視線誘導インテントプロンプト法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-09T07:11:56Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - TPP-Gaze: Modelling Gaze Dynamics in Space and Time with Neural Temporal Point Processes [63.95928298690001]
ニューラル・テンポラル・ポイント・プロセス(TPP)に基づく新規かつ原則化されたスキャンパスダイナミクスのアプローチであるTPP-Gazeを提案する。
提案手法は,最先端手法と比較して総合的に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-30T19:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。