論文の概要: StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
- arxiv url: http://arxiv.org/abs/2505.05467v1
- Date: Thu, 08 May 2025 17:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.994043
- Title: StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
- Title(参考訳): StreamBridge: オフラインのビデオ大言語モデルをプロアクティブなストリーミングアシスタントに変える
- Authors: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang,
- Abstract要約: オフラインビデオLLMをストリーミング対応モデルにシームレスに変換するフレームワークであるStreamBridgeを紹介します。
既存のモデルをオンラインシナリオに適応する上での根本的な課題は,(1)マルチターンリアルタイム理解能力の制限,(2)プロアクティブ応答機構の欠如である。
- 参考スコア(独自算出の注目度): 35.00546613484669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-LLMs into streaming-capable models. It addresses two fundamental challenges in adapting existing models into online scenarios: (1) limited capability for multi-turn real-time understanding, and (2) lack of proactive response mechanisms. Specifically, StreamBridge incorporates (1) a memory buffer combined with a round-decayed compression strategy, supporting long-context multi-turn interactions, and (2) a decoupled, lightweight activation model that can be effortlessly integrated into existing Video-LLMs, enabling continuous proactive responses. To further support StreamBridge, we construct Stream-IT, a large-scale dataset tailored for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. Extensive experiments show that StreamBridge significantly improves the streaming understanding capabilities of offline Video-LLMs across various tasks, outperforming even proprietary models such as GPT-4o and Gemini 1.5 Pro. Simultaneously, it achieves competitive or superior performance on standard video understanding benchmarks.
- Abstract(参考訳): オフラインビデオLLMをストリーミング対応モデルにシームレスに変換する,シンプルで効果的なフレームワークであるStreamBridgeを紹介します。
既存のモデルをオンラインシナリオに適応する上での根本的な課題は,(1)マルチターンリアルタイム理解能力の制限,(2)プロアクティブ応答機構の欠如である。
具体的には,(1) ラウンドデケイド圧縮戦略と組み合わせたメモリバッファ,(2) 切り離された軽量なアクティベーションモデル,(2) 既存のVideo-LLMにシームレスに統合し,継続的なプロアクティブ応答を実現する。
StreamBridgeをさらにサポートするために,ストリーミングビデオ理解に適した大規模データセットであるStream-ITを構築した。
大規模な実験の結果、StreamBridgeはオフラインのビデオ-LLMのストリーミング理解能力を様々なタスクで大幅に改善し、GPT-4oやGemini 1.5 Proのようなプロプライエタリなモデルよりも優れています。
同時に、標準的なビデオ理解ベンチマークにおいて、競争力や優れたパフォーマンスを達成する。
関連論文リスト
- Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。