論文の概要: CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention
- arxiv url: http://arxiv.org/abs/2409.01876v1
- Date: Tue, 3 Sep 2024 13:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:36:22.847690
- Title: CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention
- Title(参考訳): CyberHost: リージョンコードブックを意識したオーディオ駆動型アバター拡散モデル
- Authors: Gaojie Lin, Jianwen Jiang, Chao Liang, Tianyun Zhong, Jiaqi Yang, Yanbo Zheng,
- Abstract要約: CyberHostは、エンドツーエンドのオーディオ駆動人間アニメーションフレームワークである。
Region Codebook Attention Mechanisms improve the generation quality of face and hand animations。
身体運動マップ、手明度スコア、ポーズ整列基準特徴、局所的な強化監督など、人間優先のトレーニング戦略により、合成結果が改善される。
- 参考スコア(独自算出の注目度): 15.841490425454344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based video generation technology has advanced significantly, catalyzing a proliferation of research in human animation. However, the majority of these studies are confined to same-modality driving settings, with cross-modality human body animation remaining relatively underexplored. In this paper, we introduce, an end-to-end audio-driven human animation framework that ensures hand integrity, identity consistency, and natural motion. The key design of CyberHost is the Region Codebook Attention mechanism, which improves the generation quality of facial and hand animations by integrating fine-grained local features with learned motion pattern priors. Furthermore, we have developed a suite of human-prior-guided training strategies, including body movement map, hand clarity score, pose-aligned reference feature, and local enhancement supervision, to improve synthesis results. To our knowledge, CyberHost is the first end-to-end audio-driven human diffusion model capable of facilitating zero-shot video generation within the scope of human body. Extensive experiments demonstrate that CyberHost surpasses previous works in both quantitative and qualitative aspects.
- Abstract(参考訳): 拡散に基づくビデオ生成技術は、人間のアニメーションにおける研究の急増を触媒し、飛躍的に進歩した。
しかし、これらの研究の大部分は同じモダリティの運転設定に限られており、クロスモダリティの人体アニメーションは比較的過小評価されている。
本稿では、手作業の整合性、アイデンティティの整合性、自然な動きを保証する、エンドツーエンドのオーディオ駆動型ヒューマンアニメーションフレームワークについて紹介する。
CyberHostの鍵となる設計はRerea Codebook Attentionメカニズムである。これは、学習された動きパターンの先行ときめ細かい局所的特徴を統合することで、顔と手のアニメーションの生成品質を改善する。
さらに,身体動作マップ,手指明度スコア,ポーズアライン参照特徴,局所的な強化指導など,人手優先のトレーニング戦略のスイートを開発し,合成結果を改善した。
私たちの知る限り、CyberHostは人体の範囲内でゼロショットビデオ生成を容易にする、エンドツーエンドの人間の拡散モデルとしては初めてのものです。
大規模な実験は、CyberHostが量的および定性的両方の面で、以前の研究を上回っていることを示している。
関連論文リスト
- Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。
第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。
第2段階では、投影された音声特徴から顔の動きと動きを学習する。
最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文 参考訳(メタデータ) (2021-09-22T08:47:43Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。