論文の概要: STAR: Skeleton-aware Text-based 4D Avatar Generation with In-Network Motion Retargeting
- arxiv url: http://arxiv.org/abs/2406.04629v1
- Date: Fri, 7 Jun 2024 04:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:29:23.661090
- Title: STAR: Skeleton-aware Text-based 4D Avatar Generation with In-Network Motion Retargeting
- Title(参考訳): STAR:Skeleton-Aware Text-based 4D Avatar Generation with In-Network Motion Retargeting
- Authors: Zenghao Chai, Chen Tang, Yongkang Wong, Mohan Kankanhalli,
- Abstract要約: インネットワーク・モーション・リターゲティング(STAR)を用いたスケルトン対応テキストベース4次元アバター生成
提案したSTARは,テキスト記述とよく一致した鮮やかなアニメーションで高品質な4Dアバターを合成することができる。
- 参考スコア(独自算出の注目度): 28.478350156879348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The creation of 4D avatars (i.e., animated 3D avatars) from text description typically uses text-to-image (T2I) diffusion models to synthesize 3D avatars in the canonical space and subsequently applies animation with target motions. However, such an optimization-by-animation paradigm has several drawbacks. (1) For pose-agnostic optimization, the rendered images in canonical pose for naive Score Distillation Sampling (SDS) exhibit domain gap and cannot preserve view-consistency using only T2I priors, and (2) For post hoc animation, simply applying the source motions to target 3D avatars yields translation artifacts and misalignment. To address these issues, we propose Skeleton-aware Text-based 4D Avatar generation with in-network motion Retargeting (STAR). STAR considers the geometry and skeleton differences between the template mesh and target avatar, and corrects the mismatched source motion by resorting to the pretrained motion retargeting techniques. With the informatively retargeted and occlusion-aware skeleton, we embrace the skeleton-conditioned T2I and text-to-video (T2V) priors, and propose a hybrid SDS module to coherently provide multi-view and frame-consistent supervision signals. Hence, STAR can progressively optimize the geometry, texture, and motion in an end-to-end manner. The quantitative and qualitative experiments demonstrate our proposed STAR can synthesize high-quality 4D avatars with vivid animations that align well with the text description. Additional ablation studies shows the contributions of each component in STAR. The source code and demos are available at: \href{https://star-avatar.github.io}{https://star-avatar.github.io}.
- Abstract(参考訳): テキスト記述から4Dアバター(アニメーション3Dアバター)を作成する場合、典型的にはテキスト・トゥ・イメージ(T2I)拡散モデルを用いて、標準空間内の3Dアバターを合成し、その後ターゲットモーションでアニメーションを適用する。
しかし、このような最適化・バイ・アニメーションのパラダイムにはいくつかの欠点がある。
1) 擬似スコア蒸留サンプリング(SDS)の標準ポーズのレンダリング画像はドメインギャップを示し,T2Iの先行値のみを用いて表示一貫性を維持することができず, (2) ポストホックアニメーションでは, ソースモーションを3Dアバターに単純に適用すれば, 翻訳アーティファクトや誤認識が生じる。
これらの問題に対処するため,Skeleton-aware Text-based 4D Avatar generation with in-network Motion Retargeting (STAR)を提案する。
STARはテンプレートメッシュとターゲットアバターの形状と骨格の違いを考慮し、事前訓練されたモーションリターゲティング技術を利用してミスマッチしたソースモーションを補正する。
情報的に再ターゲティングされたオクルージョンを意識した骨格では、スケルトン条件のT2Iとテキスト・トゥ・ビデオ(T2V)を取り入れ、マルチビューとフレームに一貫性のある監視信号を協調的に提供するハイブリッドSDSモジュールを提案する。
したがって、STARは段階的に幾何学、テクスチャ、動きをエンドツーエンドで最適化することができる。
定量的および定性的な実験により,提案したSTARは,テキスト記述とよく一致した鮮明なアニメーションで高品質な4Dアバターを合成できることを示した。
追加のアブレーション研究はSTARの各成分の寄与を示している。
ソースコードとデモは: \href{https://star-avatar.github.io}{https://star-avatar.github.io}.comで公開されている。
関連論文リスト
- TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - AniArtAvatar: Animatable 3D Art Avatar from a Single Image [0.0]
単一画像からアニマタブルな3D認識アートアバターを生成するための新しいアプローチを提案する。
我々は、ビュー条件付き2次元拡散モデルを用いて、中性表現で1枚の絵画像から多視点画像を合成する。
アバターアニメーションでは、制御点を抽出し、これらの点で動きを転送し、暗黙の正準空間を変形する。
論文 参考訳(メタデータ) (2024-03-26T12:08:04Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - Disentangled Clothed Avatar Generation from Text Descriptions [41.01453534915251]
本稿では,人体と衣服を別々に生成する新しいテキスト・トゥ・アバター生成手法を提案する。
提案手法は,テクスチャやテクスチャの質の向上,テキストプロンプトとのセマンティックアライメントの向上を実現する。
論文 参考訳(メタデータ) (2023-12-08T18:43:12Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。
我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。
我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文 参考訳(メタデータ) (2023-08-21T17:59:10Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。