論文の概要: MoLingo: Motion-Language Alignment for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2512.13840v1
- Date: Mon, 15 Dec 2025 19:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.465147
- Title: MoLingo: Motion-Language Alignment for Text-to-Motion Generation
- Title(参考訳): MoLingo: テキスト・ツー・モーション・ジェネレーションのためのモーション・ランゲージアライメント
- Authors: Yannan He, Garvita Tiwari, Xiaohan Zhang, Pankaj Bora, Tolga Birdal, Jan Eric Lenssen, Gerard Pons-Moll,
- Abstract要約: MoLingoはテキスト・トゥ・モーション(T2M)モデルであり、連続した潜伏空間で妄想することで現実的な人間の動きを生成する。
フレームレベルのテキストラベルで訓練された意味対応のモーションエンコーダを提案し,類似したテキストの意味を持つラテントが近づき続けるようにした。
また,シングルトークン条件とマルチトークンのクロスアテンションスキームを比較し,クロスアテンションがより優れた動きリアリズムとテキストモーションアライメントをもたらすことを発見した。
- 参考スコア(独自算出の注目度): 50.33970522600594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MoLingo, a text-to-motion (T2M) model that generates realistic, lifelike human motion by denoising in a continuous latent space. Recent works perform latent space diffusion, either on the whole latent at once or auto-regressively over multiple latents. In this paper, we study how to make diffusion on continuous motion latents work best. We focus on two questions: (1) how to build a semantically aligned latent space so diffusion becomes more effective, and (2) how to best inject text conditioning so the motion follows the description closely. We propose a semantic-aligned motion encoder trained with frame-level text labels so that latents with similar text meaning stay close, which makes the latent space more diffusion-friendly. We also compare single-token conditioning with a multi-token cross-attention scheme and find that cross-attention gives better motion realism and text-motion alignment. With semantically aligned latents, auto-regressive generation, and cross-attention text conditioning, our model sets a new state of the art in human motion generation on standard metrics and in a user study. We will release our code and models for further research and downstream usage.
- Abstract(参考訳): 本研究では,テキスト・トゥ・モーション(T2M)モデルであるMoLingoを紹介した。
最近の研究は、一度に全ての潜伏線上で、または複数の潜伏線上で自動回帰的に、潜伏空間拡散を行う。
本稿では,連続運動潜水剤の拡散を最もよく行う方法について検討する。
本研究では,(1) 意味的に整合した潜在空間をいかに構築すれば拡散がより効果的になるか,(2) 動作が記述に密接に従うようにテキスト条件を最適に注入するか,という2つの質問に焦点をあてる。
フレームレベルのテキストラベルで訓練された意味的整合型モーションエンコーダを提案し、類似したテキスト意味を持つラテントが近づき続けるようにすることで、ラテント空間をより拡散しやすいものにする。
また,シングルトークン条件とマルチトークンのクロスアテンションスキームを比較し,クロスアテンションがより優れた動きリアリズムとテキストモーションアライメントをもたらすことを発見した。
セマンティック・アライメント・アライメント・レイトラント,自動回帰生成,クロスアテンション・テキスト・コンディショニングにより,我々のモデルは,標準的な計測値とユーザ・スタディに基づいて,人間のモーション・ジェネレーションの新たな最先端を定めている。
さらなる研究と下流利用のために、コードとモデルをリリースします。
関連論文リスト
- Compressed and Smooth Latent Space for Text Diffusion Modeling [71.87805084454187]
テキスト生成のための新しいアプローチであるCosmosを紹介します。
我々は,トークンレベルの拡散モデルに匹敵する生成品質を維持しつつ,テキスト表現を8倍に圧縮できることを実証した。
本研究では,ストーリー生成,質問生成,要約,デトキシフィケーションを含む4つの多種多様な生成課題についてコスモスを評価し,様々な生成パラダイムと比較する。
論文 参考訳(メタデータ) (2025-06-26T12:05:13Z) - ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - LEAD: Latent Realignment for Human Motion Diffusion [12.40712030002265]
私たちのゴールは、自然言語から現実的な人間の動きを作り出すことです。
動作合成では,HumanML3DおよびKIT-ML上でLEADを評価し,現実主義,多様性,テキストモーションの整合性の観点から,最先端技術に匹敵する性能を示す。
動作テキストの逆変換では,従来のVAEと比較して分布外特性を捕捉する能力が改善された。
論文 参考訳(メタデータ) (2024-10-18T14:43:05Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。