論文の概要: Reconstruction-Anchored Diffusion Model for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2601.14788v1
- Date: Wed, 21 Jan 2026 09:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.30452
- Title: Reconstruction-Anchored Diffusion Model for Text-to-Motion Generation
- Title(参考訳): テキスト・ツー・モーション生成のための再構成・アンコール拡散モデル
- Authors: Yifei Liu, Changxing Ding, Ling Guo, Huaiguang Jiang, Qiong Cao,
- Abstract要約: 拡散モデルは、テキスト駆動の人間の動き生成と関連するタスクに広く採用されている。
現在の動き拡散モデルは、運動固有情報を持たない事前訓練されたテキストエンコーダによって引き起こされる表現的ギャップと、反復的復調過程におけるエラー伝播の2つの大きな制限に直面している。
本稿では,これらの課題に対処するため,再構成型拡散モデル(RAM)を提案する。
- 参考スコア(独自算出の注目度): 34.87535133080741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have seen widespread adoption for text-driven human motion generation and related tasks due to their impressive generative capabilities and flexibility. However, current motion diffusion models face two major limitations: a representational gap caused by pre-trained text encoders that lack motion-specific information, and error propagation during the iterative denoising process. This paper introduces Reconstruction-Anchored Diffusion Model (RAM) to address these challenges. First, RAM leverages a motion latent space as intermediate supervision for text-to-motion generation. To this end, RAM co-trains a motion reconstruction branch with two key objective functions: self-regularization to enhance the discrimination of the motion space and motion-centric latent alignment to enable accurate mapping from text to the motion latent space. Second, we propose Reconstructive Error Guidance (REG), a testing-stage guidance mechanism that exploits the diffusion model's inherent self-correction ability to mitigate error propagation. At each denoising step, REG uses the motion reconstruction branch to reconstruct the previous estimate, reproducing the prior error patterns. By amplifying the residual between the current prediction and the reconstructed estimate, REG highlights the improvements in the current prediction. Extensive experiments demonstrate that RAM achieves significant improvements and state-of-the-art performance. Our code will be released.
- Abstract(参考訳): 拡散モデルは、卓越した生成能力と柔軟性のために、テキスト駆動の人間の動き生成と関連するタスクに広く採用されている。
しかし、現在の動き拡散モデルは2つの大きな制限に直面している: 運動固有情報を持たない事前訓練されたテキストエンコーダによって引き起こされる表現的ギャップ、反復的復調過程における誤り伝播である。
本稿では,これらの課題に対処するため,再構成型拡散モデル(RAM)を提案する。
第一に、RAMはテキスト・ツー・モーション・ジェネレーションの中間監督として、動きの潜時空間を利用する。
この目的のために、RAMは、動き空間の識別を強化する自己正規化と、テキストから動き潜在空間への正確なマッピングを可能にする動き中心のラテントアライメントという、2つの主要な目的関数を持つ動き再構成ブランチを共同訓練する。
第2に、拡散モデル固有の自己補正能力を利用して誤りの伝播を緩和するテストステージ誘導機構であるReconstructive Error Guidance (REG)を提案する。
各復調ステップにおいて、REGは前回の見積もりを再構成するために動き再構成ブランチを使用し、前回のエラーパターンを再現する。
現在の予測と再構成された見積の間の残差を増幅することにより、REGは現在の予測の改善を強調します。
大規模な実験では、RAMが大幅な改善と最先端のパフォーマンスを達成することが示されている。
私たちのコードは解放されます。
関連論文リスト
- IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation [54.36300724708094]
評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。
動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
論文 参考訳(メタデータ) (2025-12-11T15:16:06Z) - Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Absolute Coordinates Make Motion Generation Easy [8.153961351540834]
最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文 参考訳(メタデータ) (2025-05-26T00:36:00Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection [43.49146665908238]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて不可欠だが複雑なオープンセットタスクである。
摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
2次元離散コサイン変換(DCT)を用いて、高周波(局所)と低周波(球状)の運動成分を分離する。
論文 参考訳(メタデータ) (2024-12-04T05:43:53Z) - BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion
Synthesis [14.331548412833513]
複合現実感アプリケーションは、没入感のある体験を可能にするために、ユーザのフルボディの動きを追跡する必要がある。
本稿では,この非拘束的再構成問題に対処するために,運動合成のための生成拡散モデルであるBoDiffusionを提案する。
本稿では,スムーズで現実的なフルボディモーションシーケンスを生成しつつ,スパーストラッキング入力をBoDiffusionが活用できる時間空間調和方式を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。