論文の概要: DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation
- arxiv url: http://arxiv.org/abs/2508.06511v1
- Date: Tue, 29 Jul 2025 08:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.14052
- Title: DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation
- Title(参考訳): DiTalker: 高品質で会話スタイルをコントロール可能なポートレートアニメーションのための統合DiTベースのフレームワーク
- Authors: He Feng, Yongjia Ma, Donglin Di, Lei Fan, Tonghua Su, Xiangqian Wu,
- Abstract要約: DiTalkerは、スタイル制御可能なポートレートアニメーションのための統合されたDiTベースのフレームワークである。
音声と音声のスタイルを2つの平行なクロスアテンション層を介して分離するオーディオスタイル統合モジュールを提案する。
リップ同期と話し方制御性の観点から,DiTalkerの優位性を示す実験を行った。
- 参考スコア(独自算出の注目度): 13.089363781114477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Portrait animation aims to synthesize talking videos from a static reference face, conditioned on audio and style frame cues (e.g., emotion and head poses), while ensuring precise lip synchronization and faithful reproduction of speaking styles. Existing diffusion-based portrait animation methods primarily focus on lip synchronization or static emotion transformation, often overlooking dynamic styles such as head movements. Moreover, most of these methods rely on a dual U-Net architecture, which preserves identity consistency but incurs additional computational overhead. To this end, we propose DiTalker, a unified DiT-based framework for speaking style-controllable portrait animation. We design a Style-Emotion Encoding Module that employs two separate branches: a style branch extracting identity-specific style information (e.g., head poses and movements), and an emotion branch extracting identity-agnostic emotion features. We further introduce an Audio-Style Fusion Module that decouples audio and speaking styles via two parallel cross-attention layers, using these features to guide the animation process. To enhance the quality of results, we adopt and modify two optimization constraints: one to improve lip synchronization and the other to preserve fine-grained identity and background details. Extensive experiments demonstrate the superiority of DiTalker in terms of lip synchronization and speaking style controllability. Project Page: https://thenameishope.github.io/DiTalker/
- Abstract(参考訳): ポートレートアニメーションは、静的な参照顔から音声とスタイルのフレームキュー(例えば、感情と頭部のポーズ)に条件付けされた音声を合成し、正確な唇の同期と話し方の忠実な再現を保証することを目的としている。
既存の拡散に基づくポートレートアニメーションは、主に唇の同期や静的な感情変換に焦点を合わせており、しばしば頭の動きのような動的なスタイルを見下ろしている。
さらに、これらの手法の多くは、アイデンティティの整合性を保ちながら計算オーバーヘッドを増大させるデュアルU-Netアーキテクチャに依存している。
そこで我々はDiTalkerを提案する。DiTalkerはスタイル制御可能なポートレートアニメーションのための統合されたDiTベースのフレームワークである。
本研究では,個人固有のスタイル情報(例えば,頭部ポーズや動き)を抽出するスタイルブランチと,アイデンティティに依存しない感情特徴を抽出する感情ブランチという,2つの別々のブランチを利用するスタイル感情符号化モジュールを設計する。
さらに,2つの並列層を通じて音声と音声のスタイルを分離するAudio-Style Fusion Moduleを導入し,これらの特徴をアニメーションプロセスのガイドに利用した。
結果の質を高めるために,唇の同期を改善するための制約と,微粒なアイデンティティと背景の詳細を保持するための制約を2つ導入し,修正する。
大規模な実験は、唇同期と話し方制御性の観点からDiTalkerの優位性を実証している。
Project Page: https://thenameishope.github.io/DiTalker/
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [85.686411962494]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文 参考訳(メタデータ) (2023-01-03T13:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。