論文の概要: DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding
- arxiv url: http://arxiv.org/abs/2602.04188v1
- Date: Wed, 04 Feb 2026 04:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.359957
- Title: DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding
- Title(参考訳): DiMo: 運動生成と理解のための離散拡散モデリング
- Authors: Ning Zhang, Zhengyu Li, Kwong Weng Loh, Mingxi Xu, Qi Wang, Zhengyu Wen, Xiaoyu He, Wei Zhao, Kehong Gong, Mingyuan Zhang,
- Abstract要約: マスク付きモデリングからテキスト-モーション理解と生成まで拡張した,離散拡散スタイルのフレームワークであるDiMoを提案する。
動きをトークン化し、順次デコードするGPTスタイルの自己回帰アプローチとは異なり、DiMoは繰り返しマスク付きトークン精錬を行う。
統合された枠組みの下で、強い動きの質と競争力のある双方向理解を示す。
- 参考スコア(独自算出の注目度): 25.254783224309488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior masked modeling motion generation methods predominantly study text-to-motion. We present DiMo, a discrete diffusion-style framework, which extends masked modeling to bidirectional text--motion understanding and generation. Unlike GPT-style autoregressive approaches that tokenize motion and decode sequentially, DiMo performs iterative masked token refinement, unifying Text-to-Motion (T2M), Motion-to-Text (M2T), and text-free Motion-to-Motion (M2M) within a single model. This decoding paradigm naturally enables a quality-latency trade-off at inference via the number of refinement steps.We further improve motion token fidelity with residual vector quantization (RVQ) and enhance alignment and controllability with Group Relative Policy Optimization (GRPO). Experiments on HumanML3D and KIT-ML show strong motion quality and competitive bidirectional understanding under a unified framework. In addition, we demonstrate model ability in text-free motion completion, text-guided motion prediction and motion caption correction without architectural change.Additional qualitative results are available on our project page: https://animotionlab.github.io/DiMo/.
- Abstract(参考訳): 従来のマスク付きモデリング動作生成法は,主にテキスト・トゥ・モーションを研究対象とする。
マスク付きモデリングを双方向のテキスト-モーション理解と生成に拡張する,離散拡散スタイルのフレームワークであるDiMoを提案する。
動きをトークン化し、順次デコードするGPTスタイルの自己回帰アプローチとは異なり、DiMoは反復的なマスク付きトークン改質、テキスト・トゥ・モーション(T2M)、モーション・トゥ・テキスト(M2T)、テキスト・フリー・モーション・トゥ・モーション(M2M)を単一モデルで実行する。
この復号化パラダイムは、改良ステップの数によって推論における品質レイテンシのトレードオフを自然に実現し、残留ベクトル量子化(RVQ)による動きトークンの忠実度をさらに向上し、グループ相対ポリシー最適化(GRPO)によるアライメントと制御性を向上させる。
HumanML3DとKIT-MLの実験は、統合されたフレームワークの下で、強い動き品質と競合する双方向理解を示す。
さらに, テキストフリー動作完了, テキスト誘導動作予測, アーキテクチャ変更を伴わない動作キャプション補正のモデル能力を示すとともに, プロジェクトページ https://animotionlab.github.io/DiMo/。
関連論文リスト
- MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。
我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。
Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文 参考訳(メタデータ) (2025-03-10T06:04:31Z) - MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。
MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文 参考訳(メタデータ) (2024-11-29T15:48:24Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。