論文の概要: Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06843v1
- Date: Sun, 11 Jan 2026 10:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.024313
- Title: Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのリアルタイムビデオ理解能力の開放
- Authors: Junyan Lin, Junlong Tong, Hao Wu, Jialiang Zhang, Jinming Liu, Xin Jin, Xiaoyu Shen,
- Abstract要約: MLLM(Multimodal Large Language Models)は多くのタスクで高いパフォーマンスを実現しているが、ほとんどのシステムはオフライン推論に限られている。
最近のストリーミング手法は、知覚と生成をインターリーブすることでレイテンシを低減するが、それでもシーケンシャルな知覚生成サイクルを強制する。
本稿では,3つの設計(オーバーラップ,グループ分離,ギャップ分離)により位置連続性を緩和する並列ストリーミングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.345320064963575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved strong performance across many tasks, yet most systems remain limited to offline inference, requiring complete inputs before generating outputs. Recent streaming methods reduce latency by interleaving perception and generation, but still enforce a sequential perception-generation cycle, limiting real-time interaction. In this work, we target a fundamental bottleneck that arises when extending MLLMs to real-time video understanding: the global positional continuity constraint imposed by standard positional encoding schemes. While natural in offline inference, this constraint tightly couples perception and generation, preventing effective input-output parallelism. To address this limitation, we propose a parallel streaming framework that relaxes positional continuity through three designs: Overlapped, Group-Decoupled, and Gap-Isolated. These designs enable simultaneous perception and generation, allowing the model to process incoming inputs while producing responses in real time. Extensive experiments reveal that Group-Decoupled achieves the best efficiency-performance balance, maintaining high fluency and accuracy while significantly reducing latency. We further show that the proposed framework yields up to 2x acceleration under balanced perception-generation workloads, establishing a principled pathway toward speak-while-watching real-time systems. We make all our code publicly available: https://github.com/EIT-NLP/Speak-While-Watching.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、多くのタスクにおいて強力なパフォーマンスを実現しているが、ほとんどのシステムは、出力を生成する前に完全な入力を必要とする、オフライン推論に限られている。
最近のストリーミング手法は、知覚と生成をインターリーブすることでレイテンシを低減するが、それでもシーケンシャルな知覚生成サイクルを強制し、リアルタイムの相互作用を制限している。
本研究では,MLLMをリアルタイムな映像理解に拡張する際に生じる基本的なボトルネック,すなわち標準的な位置符号化方式によって課されるグローバルな位置連続性制約を目標とする。
オフライン推論では自然であるが、この制約は知覚と生成を密結合させ、効果的な入出力並列性を防ぐ。
この制限に対処するために,オーバーラップ,グループ分離,ギャップ分離という3つの設計により,位置連続性を緩和する並列ストリーミングフレームワークを提案する。
これらの設計は同時認識と生成を可能にし、モデルがリアルタイムで応答を生成しながら入力を処理することができる。
大規模な実験により、Group-Decoupledは最高の効率と性能のバランスを達成し、高いレイテンシと精度を維持しながら、レイテンシを著しく低減することがわかった。
さらに,本提案手法は,バランスの取れた知覚生成ワークロードにおいて最大2倍の加速を達成し,発話時リアルタイムシステムへの原則的経路を確立した。
すべてのコードを公開しています。 https://github.com/EIT-NLP/Speak-While-Watching。
関連論文リスト
- Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing [16.063514680699576]
MLLM(Multimodal large language model)は、3段階のパイプラインを通して視覚的理解を拡張する。
マルチモーダル前処理、特にビデオデコードがタイム・ツー・ファースト・トーケン(TTFT)を支配している
我々は、エンドツーエンドのMLLMパイプラインを共同で最適化する2つの補完設計であるFlashCodecとUnifiedServeを紹介する。
論文 参考訳(メタデータ) (2025-12-19T13:40:13Z) - Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty [37.15356899831919]
接続されたサイバー物理システムは、複数のデータストリームからのリアルタイム入力に基づいて推論を行う。
本稿では,適応時間窓を用いたニューラルインスパイアされたノンブロッキング推論パラダイムを提案する。
我々のフレームワークは、精度-遅延トレードオフをきめ細かな制御で堅牢なリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2025-11-20T10:48:54Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。