論文の概要: Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.10960v1
- Date: Mon, 18 Dec 2023 06:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:02:49.707393
- Title: Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model
- Title(参考訳): basic-to-advanced hierarchy diffusion model による詳細なテキスト・モーション合成に向けて
- Authors: Zhenyu Xie and Yang Wu and Xuehao Gao and Zhongqian Sun and Wei Yang
and Xiaodan Liang
- Abstract要約: 本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
- 参考スコア(独自算出の注目度): 60.27825196999742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided motion synthesis aims to generate 3D human motion that not only
precisely reflects the textual description but reveals the motion details as
much as possible. Pioneering methods explore the diffusion model for
text-to-motion synthesis and obtain significant superiority. However, these
methods conduct diffusion processes either on the raw data distribution or the
low-dimensional latent space, which typically suffer from the problem of
modality inconsistency or detail-scarce. To tackle this problem, we propose a
novel Basic-to-Advanced Hierarchical Diffusion Model, named B2A-HDM, to
collaboratively exploit low-dimensional and high-dimensional diffusion models
for high quality detailed motion synthesis. Specifically, the basic diffusion
model in low-dimensional latent space provides the intermediate denoising
result that to be consistent with the textual description, while the advanced
diffusion model in high-dimensional latent space focuses on the following
detail-enhancing denoising process. Besides, we introduce a multi-denoiser
framework for the advanced diffusion model to ease the learning of
high-dimensional model and fully explore the generative potential of the
diffusion model. Quantitative and qualitative experiment results on two
text-to-motion benchmarks (HumanML3D and KIT-ML) demonstrate that B2A-HDM can
outperform existing state-of-the-art methods in terms of fidelity, modality
consistency, and diversity.
- Abstract(参考訳): テキスト誘導型モーション合成は、テキスト記述を正確に反映するだけでなく、動きの詳細を可能な限り明らかにする3Dモーションを生成することを目的としている。
ピオネリング法はテキスト間合成の拡散モデルを探索し、大きな優位性を得る。
しかしながら、これらの手法は、原データ分布または低次元潜在空間上で拡散過程を行い、通常、モダリティの不整合やディテールスカースの問題に悩まされる。
そこで,本稿では,低次元・高次元拡散モデルを用いて高精度な動き合成を実現するために,新しい階層拡散モデルであるb2a-hdmを提案する。
具体的には、低次元ラテント空間における基本拡散モデルにより、テキスト記述と整合する中間偏微分結果が得られ、高次元ラテント空間における高度な拡散モデルは、以下の詳細化のプロセスに焦点をあてる。
さらに,高次元モデルの学習を容易にし,拡散モデルの生成可能性を完全に探求する,高度な拡散モデルのためのマルチデノワフレームワークを提案する。
2つのテキスト間ベンチマーク(HumanML3DとKIT-ML)の定量的および定性的な実験結果から、B2A-HDMは、忠実性、モダリティの整合性、多様性の点で既存の最先端手法より優れていることが示された。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - PrimDiffusion: Volumetric Primitives Diffusion for 3D Human Generation [47.15358646320958]
PrimDiffusionは3Dヒューマンジェネレーションのための初めての拡散ベースのフレームワークである。
我々のフレームワークは、高品質な3D人間のリアルタイムレンダリングを、512Times512$の解像度でサポートします。
論文 参考訳(メタデータ) (2023-12-07T18:59:33Z) - Diffusion Sampling with Momentum for Mitigating Divergence Artifacts [10.181486597424486]
本研究では, 分散アーティファクトの潜在的な原因について検討し, 数値的手法の小さな安定性領域が主な原因である可能性が示唆された。
第1のテクニックは、最適化を改善するためのよく知られたテクニックであるヘビーボール運動量(HB)を、既存の拡散数値法に組み入れて安定性領域を広げることである。
第2のテクニックは、GHVB(Generalized Heavy Ball)と呼ばれ、精度とアーティファクトの抑制のトレードオフを提供する新しい高階法を構築する。
論文 参考訳(メタデータ) (2023-07-20T14:37:30Z) - Decoupled Diffusion Models: Image to Zero and Zero to Noise [57.9447970931649]
本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する。
拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。
また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models [33.343489006271255]
拡散モデルは、高品質なサンプルを持つ新しい最先端の生成モデルとして登場した。
そこで本研究では, モデルに基づく2次元拡散を, 全次元にわたるコヒーレントな再構成を達成できるように, 実験時の残りの方向で先行する2次元拡散を拡大することを提案する。
提案手法は,1つのコモディティGPU上で動作可能であり,新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-11-19T10:32:21Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。