論文の概要: Thinking in Streaming Video
- arxiv url: http://arxiv.org/abs/2603.12938v1
- Date: Fri, 13 Mar 2026 12:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.0841
- Title: Thinking in Streaming Video
- Title(参考訳): ストリーミングビデオを考える
- Authors: Zikang Liu, Longteng Guo, Handong Li, Ru Zhen, Xingjian He, Ruyi Ji, Xiaoming Ren, Yanhao Zhang, Haonan Lu, Jing Liu,
- Abstract要約: ThinkStreamは、Watch-Think-Speakパラダイムに基づいた、ビデオ推論をストリーミングするためのフレームワークである。
Reasoning-Compressed Streaming Memory (RCSM) は、中間的推論トレースをコンパクトなセマンティックメモリとして扱う。
複数のストリーミングビデオベンチマークの実験では、ThinkStreamが既存のオンラインビデオモデルを大幅に上回っていることが示されている。
- 参考スコア(独自算出の注目度): 30.61790766076081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time understanding of continuous video streams is essential for interactive assistants and multimodal agents operating in dynamic environments. However, most existing video reasoning approaches follow a batch paradigm that defers reasoning until the full video context is observed, resulting in high latency and growing computational cost that are incompatible with streaming scenarios. In this paper, we introduce ThinkStream, a framework for streaming video reasoning based on a Watch--Think--Speak paradigm that enables models to incrementally update their understanding as new video observations arrive. At each step, the model performs a short reasoning update and decides whether sufficient evidence has accumulated to produce a response. To support long-horizon streaming, we propose Reasoning-Compressed Streaming Memory (RCSM), which treats intermediate reasoning traces as compact semantic memory that replaces outdated visual tokens while preserving essential context. We further train the model using a Streaming Reinforcement Learning with Verifiable Rewards scheme that aligns incremental reasoning and response timing with the requirements of streaming interaction. Experiments on multiple streaming video benchmarks show that ThinkStream significantly outperforms existing online video models while maintaining low latency and memory usage. Code, models and data will be released at https://github.com/johncaged/ThinkStream
- Abstract(参考訳): 動的環境で動作する対話型アシスタントやマルチモーダルエージェントには,連続ビデオストリームのリアルタイム理解が不可欠である。
しかし、既存のビデオ推論アプローチのほとんどは、完全なビデオコンテキストが観察されるまで推論を無視するバッチパラダイムに従っており、結果としてレイテンシが高くなり、ストリーミングシナリオと互換性のない計算コストが増大する。
本稿では,Watch-Think-Speakパラダイムに基づくストリーミングビデオ推論フレームワークであるThinkStreamを紹介する。
各ステップにおいて、モデルは短い推論更新を行い、応答を生成するのに十分な証拠が蓄積されているかどうかを決定する。
長期ストリーミングをサポートするために,中間的推論トレースを,不要な視覚トークンを置き換えるコンパクトなセマンティックメモリとして扱い,重要なコンテキストを保ちながら処理するReasoning-Compressed Streaming Memory (RCSM)を提案する。
さらに,逐次的推論と応答タイミングをストリーミングインタラクションの要求と整合させる検証リワードスキームを用いたストリーミング強化学習を用いてモデルをトレーニングする。
複数のストリーミングビデオベンチマークの実験は、ThinkStreamが既存のオンラインビデオモデルよりも大幅に優れ、低レイテンシとメモリ使用率を維持していることを示している。
コード、モデル、データはhttps://github.com/johncaged/ThinkStreamで公開される
関連論文リスト
- Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。