論文の概要: LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
- arxiv url: http://arxiv.org/abs/2511.05299v1
- Date: Fri, 07 Nov 2025 15:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.803637
- Title: LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
- Title(参考訳): LiveStar:リアルタイムオンラインビデオ理解のためのライブストリーミングアシスタント
- Authors: Zhenyu Yang, Kairui Zhang, Yuhang Hu, Bing Wang, Shengsheng Qian, Bin Wen, Fan Yang, Tingting Gao, Weiming Dong, Changsheng Xu,
- Abstract要約: LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
- 参考スコア(独自算出の注目度): 67.71551356747948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in Video Large Language Models (Video-LLMs) for offline video understanding, existing online Video-LLMs typically struggle to simultaneously process continuous frame-by-frame inputs and determine optimal response timing, often compromising real-time responsiveness and narrative coherence. To address these limitations, we introduce LiveStar, a pioneering live streaming assistant that achieves always-on proactive responses through adaptive streaming decoding. Specifically, LiveStar incorporates: (1) a training strategy enabling incremental video-language alignment for variable-length video streams, preserving temporal consistency across dynamically evolving frame sequences; (2) a response-silence decoding framework that determines optimal proactive response timing via a single forward pass verification; (3) memory-aware acceleration via peak-end memory compression for online inference on 10+ minute videos, combined with streaming key-value cache to achieve 1.53x faster inference. We also construct an OmniStar dataset, a comprehensive dataset for training and benchmarking that encompasses 15 diverse real-world scenarios and 5 evaluation tasks for online video understanding. Extensive experiments across three benchmarks demonstrate LiveStar's state-of-the-art performance, achieving an average 19.5% improvement in semantic correctness with 18.1% reduced timing difference compared to existing online Video-LLMs, while improving FPS by 12.0% across all five OmniStar tasks. Our model and dataset can be accessed at https://github.com/yzy-bupt/LiveStar.
- Abstract(参考訳): オフラインビデオ理解のためのビデオ大言語モデル(Video-LLM)の大幅な進歩にもかかわらず、既存のオンラインビデオLLMは、通常、連続したフレーム単位の入力を同時に処理し、最適な応答タイミングを決定するのに苦労し、しばしばリアルタイムの応答性と物語の一貫性を損なう。
この制限に対処するため,適応型ストリーミングデコーディングによって常時オンのプロアクティブ応答を実現するライブストリーミングアシスタントであるLiveStarを紹介する。
具体的には,(1)動的に進化するフレームシーケンス間の時間的一貫性を保った可変長ビデオストリームの漸進的ビデオ言語アライメントを可能にするトレーニング戦略,(2)単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコーディングフレームワーク,(3)10分以上のビデオにおけるオンライン推論のためのピークエンドメモリ圧縮によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュと組み合わせて1.53倍高速推論を実現する。
また、オンラインビデオ理解のための15の多様な実世界のシナリオと5つの評価タスクを含む、トレーニングとベンチマークのための包括的なデータセットであるOmniStarデータセットを構築した。
3つのベンチマークにわたる大規模な実験は、LiveStarの最先端性能を実証し、既存のオンラインビデオ-LLMと比べて平均19.5%のセマンティック正当性の改善を実現し、18.1%のタイミング差を減らし、一方で5つのOmniStarタスクすべてでFPSを12.0%改善した。
私たちのモデルとデータセットはhttps://github.com/yzy-bupt/LiveStarでアクセスできます。
関連論文リスト
- TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant [27.21599940736722]
オフラインビデオLLMをストリーミング対応モデルにシームレスに変換するフレームワークであるStreamBridgeを紹介します。
既存のモデルをオンラインシナリオに適応する上での根本的な課題は,(1)マルチターンリアルタイム理解能力の制限,(2)プロアクティブ応答機構の欠如である。
論文 参考訳(メタデータ) (2025-05-08T17:57:40Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。