論文の概要: LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2512.23576v1
- Date: Mon, 29 Dec 2025 16:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.57691
- Title: LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
- Title(参考訳): LiveTalk: リアルタイムマルチモーダルインタラクティブなビデオ拡散
- Authors: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu,
- Abstract要約: 汎用多目的対話型AIシステムを構築するためには,拡散によるリアルタイムビデオ生成が不可欠である。
既存の蒸留法では、モデルが自己回帰し、サンプリング工程を減らしてこれを緩和することができる。
本論文は,テキスト,画像,音声を含むマルチモーダル環境下でのリアルタイム対話型ビデオ拡散を目標とし,そのギャップを埋める。
- 参考スコア(独自算出の注目度): 35.01134463094784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.
- Abstract(参考訳): 汎用多目的対話型AIシステムを構築するためには,拡散によるリアルタイムビデオ生成が不可欠である。
しかし、拡散モデルにおける反復的プロセスを介して、全ビデオフレームを双方向の注意で同時にデノナイズすることで、リアルタイムの相互作用が防止される。
既存の蒸留法は、モデルを自己回帰化し、サンプリング手順を減らしてこれを緩和するが、主にテキスト・ビデオ生成に集中し、人間とAIの相互作用は不自然で効率の悪いままである。
本論文は,テキスト,画像,音声を含むマルチモーダル環境下でのリアルタイム対話型ビデオ拡散を目標とし,そのギャップを埋める。
先進的なオンライン蒸留手法であるSelf Forcingは,マルチモーダルコンディショニングによる課題(フリックリング,ブラックフレーム,品質劣化など視覚的アーティファクト)に直面することを考慮し,条件入力の品質と初期化とオンライン最適化のスケジュールに着目して,改良された蒸留レシピについて検討する。
HDTF, AVSpeech, CelebV-HQを含むマルチモーダルコンディショニング(オーディオ, 画像, テキスト)アバタービデオ生成のベンチマークにおいて, 蒸留されたモデルは, 20倍の推論コストと遅延を伴って, 類似または大サイズの2方向ベースラインの視覚的品質と一致した。
さらに、我々のモデルを音声言語モデルと長文ビデオ推論技術と統合し、リアルタイムマルチモーダル対話型アバターシステムLiveTalkを構築する。
得られたマルチターンインタラクションベンチマークのシステムレベル評価では,LiveTalkはマルチターン映像のコヒーレンスとコンテンツ品質において最先端のモデル(Sora2, Veo3)より優れており,応答遅延を1~2分からリアルタイムに低減し,シームレスな人間とAIのマルチモーダルインタラクションを実現している。
関連論文リスト
- JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。
まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。
第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文 参考訳(メタデータ) (2026-01-27T13:43:32Z) - FlowAct-R1: Towards Interactive Humanoid Video Generation [37.04996721172613]
FlowAct-R1は、リアルタイムインタラクティブなヒューマノイドビデオ生成用に特別に設計されたフレームワークである。
我々のフレームワークは、480pの解像度で25fpsの安定を実現し、F(Time-to-first-frame)は1.5秒程度しか持たない。
論文 参考訳(メタデータ) (2026-01-15T06:16:22Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation [19.010105652612616]
Hyper-Bagelはマルチモーダル理解と生成の両方を同時に高速化するように設計されている。
生成タスクの場合、6-NFEモデルは16.67倍のテキスト画像生成速度、22倍の画像編集速度が得られる。
論文 参考訳(メタデータ) (2025-09-23T09:12:46Z) - MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation [23.343080324521434]
本稿では,インタラクティブなマルチモーダル制御と低遅延外挿を可能にする自動回帰ビデオ生成フレームワークを提案する。
本フレームワークは,音声,ポーズ,テキストを含むマルチモーダルな条件符号化を受け入れ,空間的・意味的コヒーレントな表現を出力する。
これを支援するために,複数の情報源から約2万時間に及ぶ大規模対話データセットを構築した。
論文 参考訳(メタデータ) (2025-08-26T14:00:16Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [39.94595889521696]
LetsTalkは、マルチモーダルガイダンスと新しいメモリバンク機構を備えた拡散トランスフォーマーフレームワークである。
特に、LetsTalkは、拡張ビデオ生成時のエラーの蓄積とアーティファクトのサンプリングを緩和するために、ノイズレギュラー化されたメモリバンクを導入している。
我々はLetsTalkが生成品質の新たな最先端を確立し、時間的に一貫したリアルな会話ビデオを生成することを示す。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。