論文の概要: Free-T2M: Robust Text-to-Motion Generation for Humanoid Robots via Frequency-Domain
- arxiv url: http://arxiv.org/abs/2501.18232v2
- Date: Mon, 10 Nov 2025 09:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.313097
- Title: Free-T2M: Robust Text-to-Motion Generation for Humanoid Robots via Frequency-Domain
- Title(参考訳): Free-T2M:周波数領域によるヒューマノイドロボットのロバストテキスト・トゥ・モーション生成
- Authors: Wenshuo Chen, Haozhe Jia, Songning Lai, Lei Wang, Yuqi Lin, Hongru Xiao, Lijie Hu, Yutao Yue,
- Abstract要約: 本稿では周波数領域の観点からT2M問題を再構成する。
本稿では、段階固有の周波数領域の整合性を考慮したフレームワークであるFluquency enhanced text-to-motion(Free-T2M)を紹介する。
大規模な実験により,本手法は動作品質と意味的正しさを劇的に向上させることが示された。
- 参考スコア(独自算出の注目度): 17.042533970366105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling humanoid robots to synthesize complex, physically coherent motions from natural language commands is a cornerstone of autonomous robotics and human-robot interaction. While diffusion models have shown promise in this text-to-motion (T2M) task, they often generate semantically flawed or unstable motions, limiting their applicability to real-world robots. This paper reframes the T2M problem from a frequency-domain perspective, revealing that the generative process mirrors a hierarchical control paradigm. We identify two critical phases: a semantic planning stage, where low-frequency components establish the global motion trajectory, and a fine-grained execution stage, where high-frequency details refine the movement. To address the distinct challenges of each phase, we introduce Frequency enhanced text-to-motion (Free-T2M), a framework incorporating stage-specific frequency-domain consistency alignment. We design a frequency-domain temporal-adaptive module to modulate the alignment effects of different frequency bands. These designs enforce robustness in the foundational semantic plan and enhance the accuracy of detailed execution. Extensive experiments show our method dramatically improves motion quality and semantic correctness. Notably, when applied to the StableMoFusion baseline, Free-T2M reduces the FID from 0.152 to 0.060, establishing a new state-of-the-art within diffusion architectures. These findings underscore the critical role of frequency-domain insights for generating robust and reliable motions, paving the way for more intuitive natural language control of robots.
- Abstract(参考訳): 自然言語コマンドから複雑な物理的に整合した動きを合成するヒューマノイドロボットの開発は、自律型ロボット工学と人間とロボットの相互作用の基盤となっている。
拡散モデルは、このテキスト・トゥ・モーション(T2M)タスクにおいて有望であるが、しばしば意味的に欠陥のある動作や不安定な動作を生成し、現実のロボットに適用性を制限する。
本稿では、周波数領域の観点からT2M問題を再構成し、生成過程が階層的な制御パラダイムを反映していることを明らかにする。
我々は,低周波成分が大域運動軌道を確立する意味的計画段階と,高周波詳細が運動を洗練させる細粒度実行段階の2つの重要な段階を同定する。
各位相の異なる課題に対処するために、ステージ固有の周波数領域整合性を含むフレームワークである周波数拡張テキスト・トゥ・モーション(Free-T2M)を導入する。
周波数帯域のアライメント効果を変調する周波数領域時間適応モジュールを設計する。
これらの設計は、基本的セマンティックプランの堅牢性を強化し、詳細な実行の精度を高める。
大規模な実験により,本手法は動作品質と意味的正しさを劇的に向上させることが示された。
特に、StableMoFusionベースラインに適用すると、Free-T2MはFIDを0.152から0.060に減らし、拡散アーキテクチャにおける新しい最先端技術を確立している。
これらの知見は、ロボットのより直感的な自然言語制御への道を開いた、堅牢で信頼性の高い動作を生成するための周波数領域の洞察の重要な役割を浮き彫りにした。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Region-Adaptive Sampling for Diffusion Transformers [23.404921023113324]
RASは、DiTモデルの焦点に基づいて、画像内の領域に異なるサンプリング比を動的に割り当てる。
安定拡散3とLumina-Next-T2IのRASを評価し,それぞれ2.36xと2.51xの高速化を実現し,生成品質の低下を最小限に抑えた。
論文 参考訳(メタデータ) (2025-02-14T18:59:36Z) - Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。
これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。
我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文 参考訳(メタデータ) (2024-11-27T17:51:44Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture [42.51987004849891]
Video Motion Magnificationは、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。
動作拡大のための周波数デカップリングの新しいパラダイムであるFD4MMについて述べる。
FD4MMはFLOPを1.63$times$に削減し、推論速度を1.68$times$に向上させる。
論文 参考訳(メタデータ) (2024-03-12T06:07:29Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。