論文の概要: StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
- arxiv url: http://arxiv.org/abs/2508.08248v1
- Date: Mon, 11 Aug 2025 17:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.256328
- Title: StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
- Title(参考訳): StableAvatar:無限長のオーディオ駆動アバタービデオ
- Authors: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
- 参考スコア(独自算出の注目度): 91.45910771331741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos with natural audio synchronization and identity consistency. This paper presents StableAvatar, the first end-to-end video diffusion transformer that synthesizes infinite-length high-quality videos without post-processing. Conditioned on a reference image and audio, StableAvatar integrates tailored training and inference modules to enable infinite-length video generation. We observe that the main reason preventing existing models from generating long videos lies in their audio modeling. They typically rely on third-party off-the-shelf extractors to obtain audio embeddings, which are then directly injected into the diffusion model via cross-attention. Since current diffusion backbones lack any audio-related priors, this approach causes severe latent distribution error accumulation across video clips, leading the latent distribution of subsequent segments to drift away from the optimal distribution gradually. To address this, StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents error accumulation via time-step-aware modulation. During inference, we propose a novel Audio Native Guidance Mechanism to further enhance the audio synchronization by leveraging the diffusion's own evolving joint audio-latent prediction as a dynamic guidance signal. To enhance the smoothness of the infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy that fuses latent over time. Experiments on benchmarks show the effectiveness of StableAvatar both qualitatively and quantitatively.
- Abstract(参考訳): オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
参照画像とオーディオを条件に、StableAvatarは、調整されたトレーニングモジュールと推論モジュールを統合して、無限長のビデオ生成を可能にする。
我々は、既存のモデルが長いビデオを生成するのを防ぐ主な理由は、オーディオモデリングにあることを観察する。
通常はサードパーティ製オフザシェルフ抽出器を使ってオーディオ埋め込みを取得し、それをクロスアテンションを通じて拡散モデルに直接注入する。
現在の拡散バックボーンにはオーディオ関連の先行性がないため、この手法はビデオクリップ間で重大な潜時分布誤差が蓄積され、その後のセグメントの潜時分布が最適分布から徐々に遠ざかる。
これを解決するため、StableAvatarはタイムステップ対応オーディオアダプタを導入し、タイムステップ対応の変調によるエラーの蓄積を防ぐ。
動的誘導信号として拡散の進化するジョイントオーディオレイテンシ予測を活用することで、音声同期をさらに強化する新しいAudio Native Guidanceメカニズムを提案する。
無限長ビデオの滑らかさを高めるため,時間とともに融合するダイナミックウェイト・スライディング・ウインドウ・ストラテジーを導入する。
ベンチマーク実験では、定性的かつ定量的にスタブルアバターの有効性が示されている。
関連論文リスト
- JoyAvatar: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion [19.420963062956222]
JoyAvatarは、リアルタイム推論と無限長のビデオ生成が可能なオーディオ駆動の自己回帰モデルである。
我々のモデルは、視覚的品質、時間的一貫性、唇同期の競合的な結果を達成する。
論文 参考訳(メタデータ) (2025-12-12T10:06:01Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation [14.921126281071544]
HunyuanVideo-Foleyはエンドツーエンドのテキスト・ビデオ・オーディオ・フレームワークである。
高忠実度オーディオを視覚力学や意味文脈と正確に整合させて合成する。
音声の忠実度、視覚的セマンティックなアライメント、時間的アライメント、分布マッチングにまたがる新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-23T07:30:18Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。