論文の概要: STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2603.27593v1
- Date: Sun, 29 Mar 2026 09:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.035905
- Title: STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding
- Title(参考訳): STRIDE: ストリーミングビデオ理解のためのシークエンス・デノジング(Sequence Denoising)の話題
- Authors: Junho Kim, Hosu Lee, James M. Rehg, Minsu Kim, Yong Man Ro,
- Abstract要約: 現実のデプロイメントでは、ストリーミングの認識とプロアクティブなインタラクションがますます必要になります。
本研究では、構造化シーケンスモデリング問題として、ストリーミングビデオのアクティブなアクティベーションを再考する。
本稿では,アクティベーションインタフェースに軽量なマスク付き拡散モジュールを用いて,アクティベーション信号を共同で予測し,段階的に洗練するSTRIDEを提案する。
- 参考スコア(独自算出の注目度): 77.20037111885226
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent progress in video large language models (Video-LLMs) has enabled strong offline reasoning over long and complex videos. However, real-world deployments increasingly require streaming perception and proactive interaction, where video frames arrive online and the system must decide not only what to respond, but also when to respond. In this work, we revisit proactive activation in streaming video as a structured sequence modeling problem, motivated by the observation that temporal transitions in streaming video naturally form span-structured activation patterns. To capture this span-level structure, we model activation signals jointly over a sliding temporal window and update them iteratively as new frames arrive. We propose STRIDE (Structured Temporal Refinement with Iterative DEnoising), which employs a lightweight masked diffusion module at the activation interface to jointly predict and progressively refine activation signals across the window. Extensive experiments on diverse streaming benchmarks and downstream models demonstrate that STRIDE shows more reliable and temporally coherent proactive responses, significantly improving when-to-speak decision quality in online streaming scenarios.
- Abstract(参考訳): ビデオ大言語モデル(ビデオ-LLM)の最近の進歩は、長く複雑なビデオに対して強いオフライン推論を可能にしている。
しかし、現実のデプロイメントでは、ストリーミングの認識とプロアクティブなインタラクションがますます必要になり、そこではビデオフレームがオンラインに届き、システムは応答するだけでなく、応答するタイミングも決めなければならない。
本研究では,ストリーミングビデオにおける時間的遷移が自然にスパン構造的アクティベーションパターンを形成するという観察に動機づけられた,構造化シーケンスモデリング問題として,ストリーミングビデオの積極的なアクティベーションを再考する。
このスパンレベルの構造を捉えるため、スライディング時間窓上でアクティベーション信号を共同でモデル化し、新しいフレームが到着すると繰り返し更新する。
本稿では,アクティベーションインターフェースに軽量なマスク付き拡散モジュールを用いて,ウィンドウ全体のアクティベーション信号を協調的に予測し,段階的に洗練するSTRIDE(Structured Temporal Refinement with Iterative Denoising)を提案する。
多様なストリーミングベンチマークとダウンストリームモデルに関する大規模な実験は、STRIDEがより信頼性が高く、時間的に一貫性のあるプロアクティブ応答を示し、オンラインストリーミングのシナリオにおける時対話者の意思決定品質を著しく改善していることを示している。
関連論文リスト
- ActionPlan: Future-Aware Streaming Motion Synthesis via Frame-Level Action Planning [32.581163427518185]
ActionPlanは、単一のモデル内で高品質なオフライン生成でリアルタイムストリーミングをブリッジする。
リアルタイムストリーミングは5.25倍高速であり, 従来の手法に比べて18%の動作品質向上を実現している。
論文 参考訳(メタデータ) (2026-03-13T18:24:32Z) - SneakPeek: Future-Guided Instructional Streaming Video Generation [27.65687424500011]
我々は,SneakPeekという,将来駆動型ストリーミングインストラクショナルビデオ生成のためのパイプラインを導入する。
当社のアプローチでは,一貫性と可制御性を高めるために,3つの重要なイノベーションを導入しています。
実験により,本手法は時間的コヒーレントで意味論的に忠実な指導ビデオを生成することが示された。
論文 参考訳(メタデータ) (2025-12-15T06:32:57Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。