論文の概要: AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion
- arxiv url: http://arxiv.org/abs/2312.12763v2
- Date: Thu, 21 Dec 2023 02:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:21:52.135056
- Title: AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion
- Title(参考訳): AMD:解釈可能な運動分解と融合を伴う解剖学的運動拡散
- Authors: Beibei Jing, Youjia Zhang, Zikai Song, Junqing Yu, Wei Yang
- Abstract要約: 適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
- 参考スコア(独自算出の注目度): 11.689663297469945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic human motion sequences from text descriptions is a
challenging task that requires capturing the rich expressiveness of both
natural language and human motion.Recent advances in diffusion models have
enabled significant progress in human motion synthesis.However, existing
methods struggle to handle text inputs that describe complex or long motions.In
this paper, we propose the Adaptable Motion Diffusion (AMD) model, which
leverages a Large Language Model (LLM) to parse the input text into a sequence
of concise and interpretable anatomical scripts that correspond to the target
motion.This process exploits the LLM's ability to provide anatomical guidance
for complex motion synthesis.We then devise a two-branch fusion scheme that
balances the influence of the input text and the anatomical scripts on the
inverse diffusion process, which adaptively ensures the semantic fidelity and
diversity of the synthesized motion.Our method can effectively handle texts
with complex or long motion descriptions, where existing methods often fail.
Experiments on datasets with relatively more complex motions, such as CLCD1 and
CLCD2, demonstrate that our AMD significantly outperforms existing
state-of-the-art models.
- Abstract(参考訳): Generating realistic human motion sequences from text descriptions is a challenging task that requires capturing the rich expressiveness of both natural language and human motion.Recent advances in diffusion models have enabled significant progress in human motion synthesis.However, existing methods struggle to handle text inputs that describe complex or long motions.In this paper, we propose the Adaptable Motion Diffusion (AMD) model, which leverages a Large Language Model (LLM) to parse the input text into a sequence of concise and interpretable anatomical scripts that correspond to the target motion.This process exploits the LLM's ability to provide anatomical guidance for complex motion synthesis.We then devise a two-branch fusion scheme that balances the influence of the input text and the anatomical scripts on the inverse diffusion process, which adaptively ensures the semantic fidelity and diversity of the synthesized motion.Our method can effectively handle texts with complex or long motion descriptions, where existing methods often fail.
CLCD1やCLCD2のような比較的複雑な動きを持つデータセットの実験は、我々のAMDが既存の最先端モデルよりも大幅に優れていることを示した。
関連論文リスト
- Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。