Fugu-MT 論文翻訳(概要): CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention

論文の概要: CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention

arxiv url: http://arxiv.org/abs/2409.01876v1
Date: Tue, 3 Sep 2024 13:19:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 01:36:22.847690
Title: CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention
Title（参考訳）: CyberHost: リージョンコードブックを意識したオーディオ駆動型アバター拡散モデル
Authors: Gaojie Lin, Jianwen Jiang, Chao Liang, Tianyun Zhong, Jiaqi Yang, Yanbo Zheng,
Abstract要約: CyberHostは、エンドツーエンドのオーディオ駆動人間アニメーションフレームワークである。 Region Codebook Attention Mechanisms improve the generation quality of face and hand animations。身体運動マップ、手明度スコア、ポーズ整列基準特徴、局所的な強化監督など、人間優先のトレーニング戦略により、合成結果が改善される。
参考スコア（独自算出の注目度）: 15.841490425454344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based video generation technology has advanced significantly, catalyzing a proliferation of research in human animation. However, the majority of these studies are confined to same-modality driving settings, with cross-modality human body animation remaining relatively underexplored. In this paper, we introduce, an end-to-end audio-driven human animation framework that ensures hand integrity, identity consistency, and natural motion. The key design of CyberHost is the Region Codebook Attention mechanism, which improves the generation quality of facial and hand animations by integrating fine-grained local features with learned motion pattern priors. Furthermore, we have developed a suite of human-prior-guided training strategies, including body movement map, hand clarity score, pose-aligned reference feature, and local enhancement supervision, to improve synthesis results. To our knowledge, CyberHost is the first end-to-end audio-driven human diffusion model capable of facilitating zero-shot video generation within the scope of human body. Extensive experiments demonstrate that CyberHost surpasses previous works in both quantitative and qualitative aspects.
Abstract（参考訳）: 拡散に基づくビデオ生成技術は、人間のアニメーションにおける研究の急増を触媒し、飛躍的に進歩した。しかし、これらの研究の大部分は同じモダリティの運転設定に限られており、クロスモダリティの人体アニメーションは比較的過小評価されている。本稿では、手作業の整合性、アイデンティティの整合性、自然な動きを保証する、エンドツーエンドのオーディオ駆動型ヒューマンアニメーションフレームワークについて紹介する。 CyberHostの鍵となる設計はRerea Codebook Attentionメカニズムである。これは、学習された動きパターンの先行ときめ細かい局所的特徴を統合することで、顔と手のアニメーションの生成品質を改善する。さらに,身体動作マップ,手指明度スコア,ポーズアライン参照特徴,局所的な強化指導など,人手優先のトレーニング戦略のスイートを開発し,合成結果を改善した。私たちの知る限り、CyberHostは人体の範囲内でゼロショットビデオ生成を容易にする、エンドツーエンドの人間の拡散モデルとしては初めてのものです。大規模な実験は、CyberHostが量的および定性的両方の面で、以前の研究を上回っていることを示している。

関連論文リスト

MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。 MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文参考訳（メタデータ） (2025-07-16T06:33:11Z)
InterAnimate: Taming Region-aware Diffusion Model for Realistic Human Interaction Animation [47.103725372531784]
本稿では,現実的な顔のインタラクションをアニメーションするための新しい動作パラダイムを提案する。本手法は, 解剖学的・時間的接触力学と生体力学的に妥当な変形効果を同時に学習する。結果は、InterAnimateが非常にリアルなアニメーションを生成し、新しいベンチマークを設定していることを示している。
論文参考訳（メタデータ） (2025-04-15T06:32:45Z)
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers [83.90298286498306]
既存の方法は、主に顔の動きを駆動することに焦点を当てており、非コヒーレントな頭と体の動きに繋がる。本稿では,Diffusion-Transformers(DiT)パラダイムを取り入れた一般的な音声駆動型ヒューマンビデオ生成フレームワークであるAudCastを提案する。我々のフレームワークは、時間的コヒーレンスときめ細かい顔と手細かな細部を持つ高忠実なオーディオ駆動型人間ビデオを生成する。
論文参考訳（メタデータ） (2025-03-25T16:38:23Z)
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文参考訳（メタデータ） (2025-01-18T07:51:29Z)
X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation [4.772507207388683]
本研究では, 半体細部, 顔の表情, ジェスチャーの表現性を向上し, コンディションの冗長性を低減するため, 半体アニメーション手法であるEchoMimicV2を提案する。特定のフェーズにおけるアニメーションの動作、ディテール、低レベルの品質をガイドするために、フェーズ固有のDenoising Lossを設計する。大規模な実験と分析により、EchoMimicV2は定量評価と定性評価の両方において既存の手法を超越していることが示された。
論文参考訳（メタデータ） (2024-11-15T09:23:18Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文参考訳（メタデータ） (2024-05-26T00:53:26Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文参考訳（メタデータ） (2021-10-27T03:42:41Z)
Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。第2段階では、投影された音声特徴から顔の動きと動きを学習する。最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文参考訳（メタデータ） (2021-09-22T08:47:43Z)
Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文参考訳（メタデータ） (2021-06-07T23:11:42Z)
High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文参考訳（メタデータ） (2020-12-20T16:54:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。