論文の概要: Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2411.19509v3
- Date: Wed, 30 Apr 2025 09:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.156361
- Title: Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
- Title(参考訳): Ditto: 制御可能なリアルタイムトーキングヘッド合成のための運動空間拡散
- Authors: Tianqi Li, Ruobing Zheng, Minghui Yang, Jingdong Chen, Ming Yang,
- Abstract要約: Dittoは拡散型トーキングヘッドフレームワークで、きめ細かい制御とリアルタイム推論を可能にする。
我々は,Dittoが魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことを示す。
- 参考スコア(独自算出の注目度): 27.43583075023949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have endowed talking head synthesis with subtle expressions and vivid head movements, but have also led to slow inference speed and insufficient control over generated results. To address these issues, we propose Ditto, a diffusion-based talking head framework that enables fine-grained controls and real-time inference. Specifically, we utilize an off-the-shelf motion extractor and devise a diffusion transformer to generate representations in a specific motion space. We optimize the model architecture and training strategy to address the issues in generating motion representations, including insufficient disentanglement between motion and identity, and large internal discrepancies within the representation. Besides, we employ diverse conditional signals while establishing a mapping between motion representation and facial semantics, enabling control over the generation process and correction of the results. Moreover, we jointly optimize the holistic framework to enable streaming processing, real-time inference, and low first-frame delay, offering functionalities crucial for interactive applications such as AI assistants. Extensive experimental results demonstrate that Ditto generates compelling talking head videos and exhibits superiority in both controllability and real-time performance.
- Abstract(参考訳): 拡散モデルの最近の進歩は、微妙な表現と鮮明な頭部運動による音声頭部合成を授けてきたが、推論速度が遅く、生成した結果に対する制御が不十分であった。
これらの問題に対処するため,拡散型音声ヘッドフレームワークであるDittoを提案する。
具体的には、オフザシェルフ運動抽出器を使用し、拡散変換器を考案し、特定の運動空間における表現を生成する。
モデルアーキテクチャとトレーニング戦略を最適化し、動きとアイデンティティの絡み合いが不十分なことや、表現内の大きな内部不一致など、動き表現を生成する際の問題に対処する。
さらに,動作表現と顔のセマンティクスのマッピングを確立しつつ,多様な条件信号を用いて,生成プロセスの制御と結果の修正を行う。
さらに、ストリーミング処理、リアルタイム推論、低第1フレーム遅延を可能にするために、包括的なフレームワークを共同で最適化し、AIアシスタントのようなインタラクティブなアプリケーションに不可欠な機能を提供します。
広範にわたる実験結果から,Dittoは魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことがわかった。
関連論文リスト
- JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、新しい適応型ジョイントトレーニングフレームワークである。
我々は文脈認識型ゲーティング機構を組み込んだAdaptive LoRAを開発した。
内在性外見から運動パターンを分離するために出現非依存の時間損失を導入する。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。
本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。
我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文 参考訳(メタデータ) (2025-03-17T14:42:31Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer [26.567649613966974]
本稿では,Graph Latent Diffusion Transformerを用いた音声駆動型3次元顔アニメーションモデルGLDiTalkerを紹介する。
GLDiTalkerの背景にある中核的な考え方は、遅延量子化された空間時間空間における信号の拡散によって、オーディオ・メッシュなモダリティの不整合を解消できるということである。
論文 参考訳(メタデータ) (2024-08-03T17:18:26Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion
Transformer [110.32147183360843]
音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。
最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。
DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
論文 参考訳(メタデータ) (2024-02-08T14:39:16Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Controllable Motion Synthesis and Reconstruction with Autoregressive
Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。
本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文 参考訳(メタデータ) (2023-04-03T08:17:08Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。