論文の概要: Streaming Video Instruction Tuning
- arxiv url: http://arxiv.org/abs/2512.21334v1
- Date: Wed, 24 Dec 2025 18:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.85412
- Title: Streaming Video Instruction Tuning
- Title(参考訳): ストリーミングビデオインストラクションチューニング
- Authors: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou,
- Abstract要約: 本稿では、汎用対話型アシスタントとして機能するリアルタイムストリーミングビデオLLMであるStreamoを紹介する。
Streamoは、リアルタイムナレーション、アクション理解、イベントキャプション、時間的イベントグラウンド、時間に敏感な質問応答など、幅広いストリーミングビデオタスクを実行する。
- 参考スコア(独自算出の注目度): 36.380564553367954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.
- Abstract(参考訳): 本稿では、汎用対話型アシスタントとして機能するリアルタイムストリーミングビデオLLMであるStreamoを紹介する。
質問応答やキャプションに焦点を絞った既存のオンラインビデオモデルとは異なり、Streamoはリアルタイムナレーション、アクション理解、イベントキャプション、時間的イベントグラウンド、タイムセンシティブな質問応答など、幅広いストリーミングビデオタスクを実行する。
このような汎用性を開発するために,ストリーミングビデオ理解に適した大規模命令追従データセットStreamo-Instruct-465Kを構築した。
このデータセットは、多様な時間的コンテキストとマルチタスクの監視をカバーし、異種ストリーミングタスク間の統一的なトレーニングを可能にする。
Streamoは、合理化されたパイプラインを通じて命令追従データセットをエンドツーエンドにトレーニングした後、強い時間的推論、応答性のあるインタラクション、さまざまなストリーミングベンチマークにわたる広範な一般化を示す。
大規模な実験により、Streamoはオフラインビデオ認識モデルとリアルタイムマルチモーダルアシスタントのギャップを埋め、継続的ビデオストリームにおける統合されたインテリジェントなビデオ理解への一歩を踏み出した。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos [47.91239059703758]
TimeChat-Onlineは、リアルタイムビデオインタラクションに革命をもたらすオンラインビデオLLMである。
我々の微分トークンドロップ(DTD)モジュールは、ストリーミングビデオにおける視覚的冗長性の課題に対処します。
実験により、DTDはビデオトークンの82.8%の削減を実現し、StreamingBenchでは98%のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2025-04-24T07:59:46Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。