論文の概要: LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model
- arxiv url: http://arxiv.org/abs/2509.25304v1
- Date: Mon, 29 Sep 2025 17:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.919879
- Title: LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model
- Title(参考訳): LUMA:テキスト・ツー・モーション拡散モデルのためのデュアルパスアンカリングを用いた低次元統一運動アライメント
- Authors: Haozhe Jia, Wenshuo Chen, Yuqi Lin, Yang Yang, Lei Wang, Mang Ning, Bowen Tian, Songning Lai, Nanqian Jia, Yifan Chen, Yutao Yue,
- Abstract要約: 本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
- 参考スコア(独自算出の注目度): 18.564067196226436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current diffusion-based models, typically built on U-Net architectures, have shown promising results on the text-to-motion generation task, they still suffer from semantic misalignment and kinematic artifacts. Through analysis, we identify severe gradient attenuation in the deep layers of the network as a key bottleneck, leading to insufficient learning of high-level features. To address this issue, we propose \textbf{LUMA} (\textit{\textbf{L}ow-dimension \textbf{U}nified \textbf{M}otion \textbf{A}lignment}), a text-to-motion diffusion model that incorporates dual-path anchoring to enhance semantic alignment. The first path incorporates a lightweight MoCLIP model trained via contrastive learning without relying on external data, offering semantic supervision in the temporal domain. The second path introduces complementary alignment signals in the frequency domain, extracted from low-frequency DCT components known for their rich semantic content. These two anchors are adaptively fused through a temporal modulation mechanism, allowing the model to progressively transition from coarse alignment to fine-grained semantic refinement throughout the denoising process. Experimental results on HumanML3D and KIT-ML demonstrate that LUMA achieves state-of-the-art performance, with FID scores of 0.035 and 0.123, respectively. Furthermore, LUMA accelerates convergence by 1.4$\times$ compared to the baseline, making it an efficient and scalable solution for high-fidelity text-to-motion generation.
- Abstract(参考訳): 現在の拡散ベースのモデルは、通常U-Netアーキテクチャに基づいて構築されているが、テキスト・トゥ・モーション生成タスクにおいて有望な結果を示しているが、それでも意味的ミスアライメントとキネマティックアーティファクトに悩まされている。
解析により、ネットワークの深い層における厳密な勾配減衰を重要なボトルネックとし、ハイレベルな特徴の学習が不十分となる。
この問題に対処するため,両経路アンカーを組み込んだテキスト間拡散モデルである \textbf{LUMA} (\textit{\textbf{L}ow-dimension \textbf{U}nified \textbf{M}otion \textbf{A}lignment} を提案する。
最初のパスでは、外部データに頼ることなく、コントラスト学習を通じてトレーニングされた軽量なMoCLIPモデルが組み込まれ、時間領域における意味的な監視を提供する。
第2の経路は、そのリッチなセマンティックコンテンツで知られる低周波DCT成分から抽出された周波数領域における相補的なアライメント信号を導入する。
これら2つのアンカーは時間的変調機構によって適応的に融合し、モデルが粗いアライメントからよりきめ細かなセマンティックリファインメントへと段階的に遷移することを可能にする。
また,HumanML3DとKIT-MLの実験結果から,LUMAのFIDスコアは0.035,0.123であった。
さらに、LUMAはベースラインと比較して1.4$\times$の収束を加速し、高忠実なテキスト-モーション生成のための効率的でスケーラブルなソリューションとなる。
関連論文リスト
- Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers [31.67315012315044]
我々は,多層LLM隠蔽状態を体系的に整理する軽量ゲートを備えた統一正規化凸核融合フレームワークを提案する。
実験は、より優れた条件付け戦略としてDepth-wise Semantic Routingを確立する。
純粋に時間的な融合は、視覚発生の忠実度をパラドックス的に低下させる可能性がある。
論文 参考訳(メタデータ) (2026-02-03T13:30:13Z) - T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation [3.6564162676635363]
アバターアニメーションやヒューマノイドロボットのインタラクションといった分野において、テキスト・トゥ・モーション・ジェネレーションが注目を集めている。
モデルは、動き周期性とサリエンシを独立した要因として扱い、それらの結合を見下ろし、長いシーケンスで生成のドリフトを引き起こす。
本稿では,この制限に対処するT2M Mambaを提案する。
論文 参考訳(メタデータ) (2026-02-01T17:42:53Z) - REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion [11.138412313646995]
本稿では,統合潜在拡散フレームワークREGLUEを紹介する。
軽量な畳み込み意味論は、多層VFM特徴を低次元空間構造表現に集約する。
ImageNet 256x256では、REGLUEは一貫して、REPA、ReDi、REGと同様に、SiT-B/2およびSiT-XL/2ベースラインのFIDと収束を改善している。
論文 参考訳(メタデータ) (2025-12-18T15:10:42Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment [6.124050993047708]
WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-15T10:28:50Z) - WaMo: Wavelet-Enhanced Multi-Frequency Trajectory Analysis for Fine-Grained Text-Motion Retrieval [7.349030413222046]
Text-Motion Retrievalは、テキスト記述に意味のある3Dモーションシーケンスを検索することを目的としている。
ウェーブレットに基づく新しい多周波特徴抽出フレームワークWaMoを提案する。
WaMoは、身体関節の複数の解像度にまたがる、部分特異的かつ時間的に変化する運動の詳細をキャプチャする。
論文 参考訳(メタデータ) (2025-08-05T11:44:26Z) - CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.47567372398872]
GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-01-31T05:34:59Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing [23.598273691455503]
リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-12T08:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。