論文の概要: EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation
- arxiv url: http://arxiv.org/abs/2602.13669v1
- Date: Sat, 14 Feb 2026 08:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.325252
- Title: EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation
- Title(参考訳): EchoTorrent: マルチモーダルビデオ生成のスウィフト、持続、ストリーミングを目指す
- Authors: Rang Meng, Weipeng Wu, Yingjie Yin, Yuming Li, Chenguang Ma,
- Abstract要約: マルチモーダル生成モデルは、高い視覚的品質を達成するが、その禁止されたレイテンシと時間的安定性は、リアルタイムなデプロイメントを妨げている。
ストリーミング推論はこれらの問題を悪化させ、ぼやけ、時間的ドリフト、唇のデクロナイゼーションといったマルチモーダルな曖昧さが顕著になる。
複数教師による異なる嗜好領域の事前学習モデルを微調整し、適応MDD(ACCDMD)は、スケジュールを介して段階的に音のCFG劣化誤差を校正する、Long Hybrid Tailは、長い水平自転期間に尾フレームのみにアライメントを強制する。
- 参考スコア(独自算出の注目度): 8.795438456031512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multi-modal video generation models have achieved high visual quality, but their prohibitive latency and limited temporal stability hinder real-time deployment. Streaming inference exacerbates these issues, leading to pronounced multimodal degradation, such as spatial blurring, temporal drift, and lip desynchronization, which creates an unresolved efficiency-performance trade-off. To this end, we propose EchoTorrent, a novel schema with a fourfold design: (1) Multi-Teacher Training fine-tunes a pre-trained model on distinct preference domains to obtain specialized domain experts, which sequentially transfer domain-specific knowledge to a student model; (2) Adaptive CFG Calibration (ACC-DMD), which calibrates the audio CFG augmentation errors in DMD via a phased spatiotemporal schedule, eliminating redundant CFG computations and enabling single-pass inference per step; (3) Hybrid Long Tail Forcing, which enforces alignment exclusively on tail frames during long-horizon self-rollout training via a causal-bidirectional hybrid architecture, effectively mitigates spatiotemporal degradation in streaming mode while enhancing fidelity to reference frames; and (4) VAE Decoder Refiner through pixel-domain optimization of the VAE decoder to recover high-frequency details while circumventing latent-space ambiguities. Extensive experiments and analysis demonstrate that EchoTorrent achieves few-pass autoregressive generation with substantially extended temporal consistency, identity preservation, and audio-lip synchronization.
- Abstract(参考訳): 最近のマルチモーダルビデオ生成モデルは、高画質を実現しているが、その禁止レイテンシと時間的安定性の制限により、リアルタイムな配信が妨げられている。
ストリーミング推論はこれらの問題を悪化させ、空間的ぼかし、時間的ドリフト、唇脱同期といったマルチモーダルな劣化を引き起こし、未解決の効率と性能のトレードオフを生み出す。
この目的のために,本研究では,(1)個別の選好ドメイン上で事前学習されたモデルを微調整し,ドメイン固有の知識を学生モデルに順次伝達する特化ドメインエキスパートの育成,(2)段階的時空間スケジュールによるDMDのCFG増大エラーのキャリブレーション,不要なCFG計算の排除,ステップ毎のシングルパス推論を可能にするハイブリッドロングテールフォーシング,(3)因果的指向型ハイブリッドアーキテクチャによる長期水平自己移動トレーニングにおけるテールフレームのみのアライメントを強制するハイブリッドロングテールフォーシング,(4)VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/ VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VPE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/ VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/VAE/D/D/VAE/D/D/VAE/D/D/D/D/D/D/D/D/D/D/VAE/D/V/D/V/V/V/ V/V/V/V/V/V/V/V/D/V/V/D/V/V/V/V/D/D/V/V/D/D/V/D/D/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/V/ V/V/V/V/V/V/V/V/V-。
大規模な実験と分析により、EchoTorrentは時間的一貫性、アイデンティティ保存、オーディオ-リップ同期を大幅に拡張した、数パスの自動回帰生成を実現している。
関連論文リスト
- Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment [92.57576987521107]
両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
論文 参考訳(メタデータ) (2025-12-11T09:14:51Z) - USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - ProAV-DiT: A Projected Latent Diffusion Transformer for Efficient Synchronized Audio-Video Generation [15.636132687296788]
ProAV-DiT (ProAV-DiT) は、高効率かつ同期化されたオーディオビデオ生成用に設計された投射潜時拡散変換器である。
ProAV-DiTは、マルチスケールのデュアルストリーム時空間オートエンコーダ(MDSA)を採用している。
ProAV-DiTは、生成品質と計算効率の両方において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-11-15T07:24:17Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。