Fugu-MT 論文翻訳(概要): DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

論文の概要: DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

arxiv url: http://arxiv.org/abs/2402.05712v1
Date: Thu, 8 Feb 2024 14:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 14:39:02.365932
Title: DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer
Title（参考訳）: diffspeaker:拡散トランスフォーマーを用いた音声駆動3d顔アニメーション
Authors: Zhiyuan Ma, Xiangyu Zhu, Guojun Qi, Chen Qian, Zhaoxiang Zhang, Zhen Lei
Abstract要約: 音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。 DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
参考スコア（独自算出の注目度）: 110.32147183360843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-driven 3D facial animation is important for many multimedia applications. Recent work has shown promise in using either Diffusion models or Transformer architectures for this task. However, their mere aggregation does not lead to improved performance. We suspect this is due to a shortage of paired audio-4D data, which is crucial for the Transformer to effectively perform as a denoiser within the Diffusion framework. To tackle this issue, we present DiffSpeaker, a Transformer-based network equipped with novel biased conditional attention modules. These modules serve as substitutes for the traditional self/cross-attention in standard Transformers, incorporating thoughtfully designed biases that steer the attention mechanisms to concentrate on both the relevant task-specific and diffusion-related conditions. We also explore the trade-off between accurate lip synchronization and non-verbal facial expressions within the Diffusion paradigm. Experiments show our model not only achieves state-of-the-art performance on existing benchmarks, but also fast inference speed owing to its ability to generate facial motions in parallel.
Abstract（参考訳）: 音声駆動の3d顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。しかし、それらのアグリゲーションはパフォーマンスの向上にはつながりません。これは、TransformerがDiffusionフレームワーク内で事実上デノイザとして機能することが不可欠であるペアオーディオ4Dデータが不足しているためではないかと考えています。そこで本稿では,新しいバイアス付き条件付注意モジュールを備えたトランスフォーマネットワークdiffspeakerを提案する。これらのモジュールは、通常のトランスフォーマーにおける従来の自己/クロス・アテンションの代用として機能し、関連するタスク固有の条件と拡散関連条件の両方に集中するための注意のメカニズムを適切に設計したバイアスを組み込む。また,Diffusion パラダイム内では,正確な唇同期と非言語的表情のトレードオフについても検討する。実験の結果,既存のベンチマークで最先端のパフォーマンスを実現するだけでなく,並列に顔の動きを生成できるため,推論速度も速いことがわかった。

関連論文リスト

M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation [16.202732894319084]
MoDiT は 3D Morphable Model (3DMM) と Diffusion-based Transformer を組み合わせた新しいフレームワークである。 i) 時間的注意と偏りのある自己/横断的意識のメカニズムを改良した階層的認知戦略により, モデルによる唇同期の洗練が可能となった。 2) 空間的制約を明確化し, 正確な3次元インフォームド光流予測を実現するための3次元MM係数の統合。
論文参考訳（メタデータ） (2025-07-07T15:13:46Z)
Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-29T12:08:02Z)
Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis [27.43583075023949]
Dittoは拡散型トーキングヘッドフレームワークで、きめ細かい制御とリアルタイム推論を可能にする。我々は,Dittoが魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことを示す。
論文参考訳（メタデータ） (2024-11-29T07:01:31Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文参考訳（メタデータ） (2024-08-11T07:01:39Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文参考訳（メタデータ） (2024-08-06T17:29:01Z)
GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer [26.567649613966974]
本稿では,Graph Latent Diffusion Transformerを用いた音声駆動型3次元顔アニメーションモデルGLDiTalkerを紹介する。 GLDiTalkerの背景にある中核的な考え方は、遅延量子化された空間時間空間における信号の拡散によって、オーディオ・メッシュなモダリティの不整合を解消できるということである。
論文参考訳（メタデータ） (2024-08-03T17:18:26Z)
SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文参考訳（メタデータ） (2023-12-25T04:40:32Z)
Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文参考訳（メタデータ） (2022-08-23T17:48:29Z)
FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文参考訳（メタデータ） (2021-12-10T04:21:59Z)
Robust Motion In-betweening [17.473287573543065]
本稿では,3次元アニメーターのための新しいツールとして機能する,新しい頑健な遷移生成技術を提案する。このシステムは、時間的にスパーサをアニメーションの制約として使用する高品質な動作を合成する。私たちは、トレーニングされたモデルを使用して運用シナリオで相互運用を行う、カスタムのMotionBuilderプラグインを紹介します。
論文参考訳（メタデータ） (2021-02-09T16:52:45Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。