論文の概要: Embracing Aleatoric Uncertainty: Generating Diverse 3D Human Motion
- arxiv url: http://arxiv.org/abs/2508.20604v1
- Date: Thu, 28 Aug 2025 09:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.306645
- Title: Embracing Aleatoric Uncertainty: Generating Diverse 3D Human Motion
- Title(参考訳): Aleatoric Uncertainityを取り入れた多次元人体運動の生成
- Authors: Zheng Qin, Yabing Wang, Minghui Yang, Sanping Zhou, Ming Yang, Le Wang,
- Abstract要約: 本研究では,単純なテキスト・ツー・モーション生成手法であるtextiti.,Diverse-T2Mを提案する。
本手法は, 生成過程に不確実性を導入し, 高度に多様な動きの発生を可能にする。
HumanML3D と KIT-ML のテキスト・トゥ・モーション・ジェネレーション・ベンチマーク・データセットを用いた結果,本手法はテキストの一貫性を保ちながら多様性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 47.7415368268124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D human motions from text is a challenging yet valuable task. The key aspects of this task are ensuring text-motion consistency and achieving generation diversity. Although recent advancements have enabled the generation of precise and high-quality human motions from text, achieving diversity in the generated motions remains a significant challenge. In this paper, we aim to overcome the above challenge by designing a simple yet effective text-to-motion generation method, \textit{i.e.}, Diverse-T2M. Our method introduces uncertainty into the generation process, enabling the generation of highly diverse motions while preserving the semantic consistency of the text. Specifically, we propose a novel perspective that utilizes noise signals as carriers of diversity information in transformer-based methods, facilitating a explicit modeling of uncertainty. Moreover, we construct a latent space where text is projected into a continuous representation, instead of a rigid one-to-one mapping, and integrate a latent space sampler to introduce stochastic sampling into the generation process, thereby enhancing the diversity and uncertainty of the outputs. Our results on text-to-motion generation benchmark datasets~(HumanML3D and KIT-ML) demonstrate that our method significantly enhances diversity while maintaining state-of-the-art performance in text consistency.
- Abstract(参考訳): テキストから3Dの人間の動きを生成することは、難しいが価値のある仕事だ。
このタスクの重要な側面は、テキスト・モーションの一貫性を確保し、生成の多様性を達成することである。
近年の進歩により、テキストから正確で高品質な人間の動きを生成できるようになったが、生成した動きの多様性を達成することは大きな課題である。
本稿では,単純なテキスト・ツー・モーション生成手法であるDiverse-T2Mを設計することで,上記の課題を克服することを目的とする。
本手法は,テキストのセマンティックな一貫性を保ちながら,多種多様な動作を生成可能な生成プロセスに不確実性を導入する。
具体的には,変圧器方式の多様性情報のキャリアとしてノイズ信号を利用する新しい視点を提案し,不確実性を明確にモデル化する。
さらに,テキストを1対1の厳密なマッピングではなく連続的な表現に投影する潜時空間を構築し,その生成プロセスに確率的サンプリングを導入するために潜時空間サンプリング器を統合することにより,出力の多様性と不確実性を高める。
HumanML3D と KIT-ML) のテキスト・トゥ・モーション・ジェネレーション・ベンチマーク・データセットによる結果から,本手法はテキストの一貫性を保ちながら多様性を著しく向上することが示された。
関連論文リスト
- PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。
我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。
さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文 参考訳(メタデータ) (2025-01-27T22:51:45Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes
from Natural Language [21.727938353786218]
CLIP-Sculptorは、トレーニング中に(テキスト、形状)ペアを必要とせずに、高忠実で多様な3次元形状を生成する方法である。
形状の多様性を向上させるために、CLIPのイメージテキスト埋め込み空間に条件付きトランスフォーマーを用いてモデル化した離散潜在空間を用いる。
論文 参考訳(メタデータ) (2022-11-02T18:50:25Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。