論文の概要: LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model
- arxiv url: http://arxiv.org/abs/2509.25304v1
- Date: Mon, 29 Sep 2025 17:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.919879
- Title: LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model
- Title(参考訳): LUMA:テキスト・ツー・モーション拡散モデルのためのデュアルパスアンカリングを用いた低次元統一運動アライメント
- Authors: Haozhe Jia, Wenshuo Chen, Yuqi Lin, Yang Yang, Lei Wang, Mang Ning, Bowen Tian, Songning Lai, Nanqian Jia, Yifan Chen, Yutao Yue,
- Abstract要約: 本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
- 参考スコア(独自算出の注目度): 18.564067196226436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current diffusion-based models, typically built on U-Net architectures, have shown promising results on the text-to-motion generation task, they still suffer from semantic misalignment and kinematic artifacts. Through analysis, we identify severe gradient attenuation in the deep layers of the network as a key bottleneck, leading to insufficient learning of high-level features. To address this issue, we propose \textbf{LUMA} (\textit{\textbf{L}ow-dimension \textbf{U}nified \textbf{M}otion \textbf{A}lignment}), a text-to-motion diffusion model that incorporates dual-path anchoring to enhance semantic alignment. The first path incorporates a lightweight MoCLIP model trained via contrastive learning without relying on external data, offering semantic supervision in the temporal domain. The second path introduces complementary alignment signals in the frequency domain, extracted from low-frequency DCT components known for their rich semantic content. These two anchors are adaptively fused through a temporal modulation mechanism, allowing the model to progressively transition from coarse alignment to fine-grained semantic refinement throughout the denoising process. Experimental results on HumanML3D and KIT-ML demonstrate that LUMA achieves state-of-the-art performance, with FID scores of 0.035 and 0.123, respectively. Furthermore, LUMA accelerates convergence by 1.4$\times$ compared to the baseline, making it an efficient and scalable solution for high-fidelity text-to-motion generation.
- Abstract(参考訳): 現在の拡散ベースのモデルは、通常U-Netアーキテクチャに基づいて構築されているが、テキスト・トゥ・モーション生成タスクにおいて有望な結果を示しているが、それでも意味的ミスアライメントとキネマティックアーティファクトに悩まされている。
解析により、ネットワークの深い層における厳密な勾配減衰を重要なボトルネックとし、ハイレベルな特徴の学習が不十分となる。
この問題に対処するため,両経路アンカーを組み込んだテキスト間拡散モデルである \textbf{LUMA} (\textit{\textbf{L}ow-dimension \textbf{U}nified \textbf{M}otion \textbf{A}lignment} を提案する。
最初のパスでは、外部データに頼ることなく、コントラスト学習を通じてトレーニングされた軽量なMoCLIPモデルが組み込まれ、時間領域における意味的な監視を提供する。
第2の経路は、そのリッチなセマンティックコンテンツで知られる低周波DCT成分から抽出された周波数領域における相補的なアライメント信号を導入する。
これら2つのアンカーは時間的変調機構によって適応的に融合し、モデルが粗いアライメントからよりきめ細かなセマンティックリファインメントへと段階的に遷移することを可能にする。
また,HumanML3DとKIT-MLの実験結果から,LUMAのFIDスコアは0.035,0.123であった。
さらに、LUMAはベースラインと比較して1.4$\times$の収束を加速し、高忠実なテキスト-モーション生成のための効率的でスケーラブルなソリューションとなる。
関連論文リスト
- WaMo: Wavelet-Enhanced Multi-Frequency Trajectory Analysis for Fine-Grained Text-Motion Retrieval [7.349030413222046]
Text-Motion Retrievalは、テキスト記述に意味のある3Dモーションシーケンスを検索することを目的としている。
ウェーブレットに基づく新しい多周波特徴抽出フレームワークWaMoを提案する。
WaMoは、身体関節の複数の解像度にまたがる、部分特異的かつ時間的に変化する運動の詳細をキャプチャする。
論文 参考訳(メタデータ) (2025-08-05T11:44:26Z) - CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.47567372398872]
GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-01-31T05:34:59Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing [23.598273691455503]
リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-12T08:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。