論文の概要: RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2508.05115v1
- Date: Thu, 07 Aug 2025 07:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.750911
- Title: RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer
- Title(参考訳): RAP:ビデオ拡散変換器を用いたリアルタイムオーディオ駆動画像アニメーション
- Authors: Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu,
- Abstract要約: RAP(Real-time Audio-driven Portrait animation)は,リアルタイム制約下で高品質な音声画像を生成するための統合フレームワークである。
RAPは正確な音声駆動制御を実現し、長期の時間的ドリフトを緩和し、高い視力を維持する。
- 参考スコア(独自算出の注目度): 36.828476646865305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven portrait animation aims to synthesize realistic and natural talking head videos from an input audio signal and a single reference image. While existing methods achieve high-quality results by leveraging high-dimensional intermediate representations and explicitly modeling motion dynamics, their computational complexity renders them unsuitable for real-time deployment. Real-time inference imposes stringent latency and memory constraints, often necessitating the use of highly compressed latent representations. However, operating in such compact spaces hinders the preservation of fine-grained spatiotemporal details, thereby complicating audio-visual synchronization RAP (Real-time Audio-driven Portrait animation), a unified framework for generating high-quality talking portraits under real-time constraints. Specifically, RAP introduces a hybrid attention mechanism for fine-grained audio control, and a static-dynamic training-inference paradigm that avoids explicit motion supervision. Through these techniques, RAP achieves precise audio-driven control, mitigates long-term temporal drift, and maintains high visual fidelity. Extensive experiments demonstrate that RAP achieves state-of-the-art performance while operating under real-time constraints.
- Abstract(参考訳): 音声駆動のポートレートアニメーションは、入力された音声信号と単一の参照画像からリアルで自然な音声ヘッドビデオを合成することを目的としている。
既存の手法では高次元の中間表現を活用し、運動力学を明示的にモデル化することで高品質な結果が得られるが、その計算複雑性はリアルタイムな展開には適さない。
リアルタイム推論は遅延とメモリの制約を厳しく課し、しばしば高度に圧縮された潜在表現を使用する必要がある。
しかし、このようなコンパクトな空間での操作は、微細な時空間の詳細の保存を妨げるため、リアルタイム制約下で高品質な音声画像を生成する統合フレームワークである音声-視覚同期RAP(Real-time Audio-driven Portrait animation)を複雑化する。
具体的には、細粒度オーディオ制御のためのハイブリッドアテンション機構と、明示的な動作監視を回避する静的ダイナミックトレーニング推論パラダイムを導入している。
これらの手法により、RAPは正確な音声駆動制御を達成し、長期の時間的ドリフトを緩和し、高い視覚的忠実性を維持する。
大規模な実験により、RAPはリアルタイムな制約の下で動作しながら最先端のパフォーマンスを達成することが示された。
関連論文リスト
- READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。
我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文 参考訳(メタデータ) (2025-06-01T04:27:13Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [19.590464986176617]
LetsTalkは、ビデオ合成のための拡散拡散TranSformerである。
提案手法は最先端の生成品質を実現し,時間的コヒーレントでリアルなビデオを生成する。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。