論文の概要: EvoStreaming: Your Offline Video Model Is a Natively Streaming Assistant
- arxiv url: http://arxiv.org/abs/2605.10343v1
- Date: Mon, 11 May 2026 10:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.740982
- Title: EvoStreaming: Your Offline Video Model Is a Natively Streaming Assistant
- Title(参考訳): EvoStreaming:オフラインビデオモデルはネイティブストリーミングアシスタント
- Authors: Zichen Wen, Boxue Yang, Junlong Ke, Jiajie Huang, Chenfei Liao, Junxi Wang, Xuyang Liu, Linfeng Zhang,
- Abstract要約: EvoStreamingは自己進化型のストリーミング適応フレームワークである。
EvoStreamingは5つのオープンなVideoLLMバックボーンに対して、RealStreamEvalのスコアを最大10.8$ポイント改善しています。
これらの結果は,既存のビデオLLMをストリーミングアシスタントに適応させる上で,データ効率のよいインタラクションチューニングが実用的な方法であることを示唆している。
- 参考スコア(独自算出の注目度): 14.309187098312115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming video understanding demands more than watching longer videos: assistants must decide when to speak in real time, balancing responsiveness against verbosity. Yet most video-language models (VideoLLMs) are trained for offline inference, and existing streaming benchmarks externalize this timing decision to the evaluator. We address this gap with RealStreamEval, a frame-level multi-turn evaluation protocol that exposes models to sequential observations and penalizes unnecessary responses. Under this protocol, we observed that strong offline VideoLLMs retain useful visual understanding but lack an interaction policy for deciding when to respond. Motivated by this observation, we propose EvoStreaming, a self-evolved streaming adaptation framework in which the base model itself acts as data generator, relevance annotator, and roll-out policy to synthesize streaming trajectories without external supervision. With only $1{,}000$ self-generated samples ($139\times$ less than the leading streaming instruction-tuning approach) and no architectural changes, EvoStreaming consistently improves the overall RealStreamEval score by up to $10.8$ points across five open VideoLLM backbones (Qwen2/2.5/3-VL, InternVL-3.5, MiniCPM-V4.5) while largely preserving offline video performance. These results suggest that data-efficient interaction tuning is a practical path for adapting existing VideoLLMs to streaming assistants.
- Abstract(参考訳): より長いビデオを見ることよりも、ビデオ理解の要求をストリーミングする: アシスタントはいつ話すべきかをリアルタイムで決め、冗長性に対する応答性のバランスをとる必要がある。
しかし、ほとんどのビデオ言語モデル(VideoLLM)はオフライン推論のためにトレーニングされており、既存のストリーミングベンチマークは、このタイミング決定を評価者に外部化する。
このギャップを、フレームレベルのマルチターン評価プロトコルであるRealStreamEvalで解決し、連続的な観測にモデルを公開し、不要な応答をペナルティ化する。
このプロトコルでは、強力なオフラインビデオLLMが有用な視覚的理解を維持しつつ、応答するタイミングを決定するためのインタラクションポリシーが欠如していることが観察された。
本研究では,データ生成,関連アノテータ,ロールアウトポリシとしてベースモデル自体が機能する自己進化型ストリーミング適応フレームワークであるEvoStreamingを提案する。
1{,}000$の自己生成サンプル(主要なストリーミング命令チューニングアプローチよりも139\times$139\times)とアーキテクチャ上の変更はないため、EvoStreamingは、オフラインビデオのパフォーマンスをほぼ保ちながら、オープンな5つのビデオLLMバックボーン(Qwen2/2.5/3-VL、InternVL-3.5、MiniCPM-V4.5)に対して、RealStreamEvalのスコアを最大10.8$ポイント改善している。
これらの結果は,既存のビデオLLMをストリーミングアシスタントに適応させる上で,データ効率のよいインタラクションチューニングが実用的な方法であることを示唆している。
関連論文リスト
- VSAS-BENCH: Real-Time Evaluation of Visual Streaming Assistant Models [39.78979236902648]
ストリーム視覚言語モデル(VLM)は、命令プロンプトと入力フレームのオンラインストリームが与えられた応答を連続的に生成する。
Visual Streaming Assistantsの新しいフレームワークとベンチマークであるVSAS-Benchを提案する。
論文 参考訳(メタデータ) (2026-04-08T22:31:20Z) - Thinking in Streaming Video [30.61790766076081]
ThinkStreamは、Watch-Think-Speakパラダイムに基づいた、ビデオ推論をストリーミングするためのフレームワークである。
Reasoning-Compressed Streaming Memory (RCSM) は、中間的推論トレースをコンパクトなセマンティックメモリとして扱う。
複数のストリーミングビデオベンチマークの実験では、ThinkStreamが既存のオンラインビデオモデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-03-13T12:33:36Z) - Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant [27.21599940736722]
オフラインビデオLLMをストリーミング対応モデルにシームレスに変換するフレームワークであるStreamBridgeを紹介します。
既存のモデルをオンラインシナリオに適応する上での根本的な課題は,(1)マルチターンリアルタイム理解能力の制限,(2)プロアクティブ応答機構の欠如である。
論文 参考訳(メタデータ) (2025-05-08T17:57:40Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。