論文の概要: OmniForcing: Unleashing Real-time Joint Audio-Visual Generation
- arxiv url: http://arxiv.org/abs/2603.11647v1
- Date: Thu, 12 Mar 2026 08:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.957775
- Title: OmniForcing: Unleashing Real-time Joint Audio-Visual Generation
- Title(参考訳): OmniForcing: リアルタイムのジョイント・オーディオ・ビジュアル・ジェネレーション
- Authors: Yaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan,
- Abstract要約: 最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 51.031726911410594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent joint audio-visual diffusion models achieve remarkable generation quality but suffer from high latency due to their bidirectional attention dependencies, hindering real-time applications. We propose OmniForcing, the first framework to distill an offline, dual-stream bidirectional diffusion model into a high-fidelity streaming autoregressive generator. However, naively applying causal distillation to such dual-stream architectures triggers severe training instability, due to the extreme temporal asymmetry between modalities and the resulting token sparsity. We address the inherent information density gap by introducing an Asymmetric Block-Causal Alignment with a zero-truncation Global Prefix that prevents multi-modal synchronization drift. The gradient explosion caused by extreme audio token sparsity during the causal shift is further resolved through an Audio Sink Token mechanism equipped with an Identity RoPE constraint. Finally, a Joint Self-Forcing Distillation paradigm enables the model to dynamically self-correct cumulative cross-modal errors from exposure bias during long rollouts. Empowered by a modality-independent rolling KV-cache inference scheme, OmniForcing achieves state-of-the-art streaming generation at $\sim$25 FPS on a single GPU, maintaining multi-modal synchronization and visual quality on par with the bidirectional teacher.\textbf{Project Page:} \href{https://omniforcing.com}{https://omniforcing.com}
- Abstract(参考訳): 最近の共同音声-視覚拡散モデルでは、生成品質が著しく向上するが、双方向の注意依存性により遅延が遅くなり、リアルタイムの応用が妨げられる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実なストリーミング自己回帰生成器に蒸留する最初のフレームワークである。
しかし、このような二重ストリームアーキテクチャに因果蒸留を適用すると、モダリティと結果として生じるトークンの間隔の間の極端に時間的非対称性のため、厳しいトレーニング不安定が引き起こされる。
我々は,非対称なブロック・カジュアルアライメントと,マルチモーダル同期ドリフトを防止するゼロトランケーション・グローバルプレフィックスを導入することで,固有情報密度ギャップに対処する。
さらに、Identity RoPE制約を備えたAudio Sink Token機構により、因果シフト中の極端オーディオトークンの間隔による勾配爆発を解消する。
最後に、ジョイント・セルフフォース蒸留のパラダイムにより、長時間のロールアウト中に露出バイアスから動的に累積累積誤差を自己修正することができる。
OmniForcingは、モダリティ非依存のローリングKV-cache推論スキームによって、単一のGPU上での最先端のストリーミング生成を$\sim$25 FPSで達成し、マルチモーダル同期と視覚的品質を双方向教師と同等に維持する。
\textbf{Project Page:} \href{https://omniforcing.com}{https://omniforcing.com}
関連論文リスト
- From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising [52.237486207964245]
HiARは階層的なデノベーションフレームワークで、従来の世代順を逆転させる。
発声ステップ毎に全てのブロックを因果生成し、各ブロックが常に同じノイズレベルでコンテキストで条件付けされるようにする。
VBench(20世代)では、HiARは比較したすべての方法の中で最高の総合スコアと最低時間ドリフトを達成する。
論文 参考訳(メタデータ) (2026-03-09T17:58:16Z) - EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation [8.795438456031512]
マルチモーダル生成モデルは、高い視覚的品質を達成するが、その禁止されたレイテンシと時間的安定性は、リアルタイムなデプロイメントを妨げている。
ストリーミング推論はこれらの問題を悪化させ、ぼやけ、時間的ドリフト、唇のデクロナイゼーションといったマルチモーダルな曖昧さが顕著になる。
複数教師による異なる嗜好領域の事前学習モデルを微調整し、適応MDD(ACCDMD)は、スケジュールを介して段階的に音のCFG劣化誤差を校正する、Long Hybrid Tailは、長い水平自転期間に尾フレームのみにアライメントを強制する。
論文 参考訳(メタデータ) (2026-02-14T08:32:38Z) - SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation [16.34443339642213]
textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。
SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
論文 参考訳(メタデータ) (2025-12-29T11:18:24Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。
我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文 参考訳(メタデータ) (2025-11-03T10:12:47Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。