論文の概要: LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model
- arxiv url: http://arxiv.org/abs/2405.03485v1
- Date: Mon, 6 May 2024 13:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:36:52.039518
- Title: LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model
- Title(参考訳): LGTM: 局所-グローバルテキスト駆動型ヒューマンモーション拡散モデル
- Authors: Haowen Sun, Ruikun Zheng, Haibin Huang, Chongyang Ma, Hui Huang, Ruizhen Hu,
- Abstract要約: テキスト・トゥ・モーション・ジェネレーションのための新しいローカル・ツー・グローバル・パイプラインであるLGTMを紹介する。
コンピュータアニメーションにおけるテキスト記述を意味的コヒーレントな人間の動作に正確に翻訳するという課題に対処することを目的としている。
実験の結果,LGTMは局所的に意味論的に協調した人間の動きを生成できることが判明した。
- 参考スコア(独自算出の注目度): 23.864126853396527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce LGTM, a novel Local-to-Global pipeline for Text-to-Motion generation. LGTM utilizes a diffusion-based architecture and aims to address the challenge of accurately translating textual descriptions into semantically coherent human motion in computer animation. Specifically, traditional methods often struggle with semantic discrepancies, particularly in aligning specific motions to the correct body parts. To address this issue, we propose a two-stage pipeline to overcome this challenge: it first employs large language models (LLMs) to decompose global motion descriptions into part-specific narratives, which are then processed by independent body-part motion encoders to ensure precise local semantic alignment. Finally, an attention-based full-body optimizer refines the motion generation results and guarantees the overall coherence. Our experiments demonstrate that LGTM gains significant improvements in generating locally accurate, semantically-aligned human motion, marking a notable advancement in text-to-motion applications. Code and data for this paper are available at https://github.com/L-Sun/LGTM
- Abstract(参考訳): 本稿では,テキスト・トゥ・モーション・ジェネレーションのためのローカル・ツー・グローバル・パイプラインであるLGTMを紹介する。
LGTMは拡散に基づくアーキテクチャを用いており、コンピュータアニメーションにおけるテキスト記述を意味的コヒーレントな人間の動作に正確に翻訳するという課題に対処することを目的としている。
具体的には、伝統的な手法は意味的不一致に苦しむことが多く、特に特定の動きを正しい身体の部分と整合させる。
この問題に対処するために,まずグローバルな動作記述を部分固有の物語に分解するために,大言語モデル(LLM)を用い,その後,独立な動作エンコーダによって処理され,局所的セマンティックアライメントの正確性を確保する。
最後に、注意に基づくフルボディオプティマイザは、動作生成結果を洗練し、全体的なコヒーレンスを保証する。
実験の結果,LGTMは局所的に正確で意味的に整合した人間の動作を生成できることが示され,テキスト・トゥ・モーション・アプリケーションにおける顕著な進歩を示している。
この論文のコードとデータはhttps://github.com/L-Sun/LGTMで公開されている。
関連論文リスト
- FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。
動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation [52.87672306545577]
既存の動き生成法は主に大域運動の直接合成に焦点を当てている。
本研究では,局所動作を微粒化制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型動き拡散モデルを提案する。
本手法は,様々な局所動作と連続誘導重み調整をシームレスに組み合わせる柔軟性を提供する。
論文 参考訳(メタデータ) (2024-07-15T08:35:00Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer [96.64111294772141]
HVMT(Human Video Motion Transfer)は、運転者の動きを模倣した映像を生成することを目的としている。
HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用してワープ操作を行う。
本稿では,GANをベースとした新しい人体移動フレームワークについて述べる。
論文 参考訳(メタデータ) (2022-09-01T14:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。