論文の概要: Free-T2M: Frequency Enhanced Text-to-Motion Diffusion Model With Consistency Loss
- arxiv url: http://arxiv.org/abs/2501.18232v1
- Date: Thu, 30 Jan 2025 09:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:00.507942
- Title: Free-T2M: Frequency Enhanced Text-to-Motion Diffusion Model With Consistency Loss
- Title(参考訳): Free-T2M: 一貫性損失を伴う周波数拡張テキスト-運動拡散モデル
- Authors: Wenshuo Chen, Haozhe Jia, Songning Lai, Keming Wu, Hongru Xiao, Lijie Hu, Yutao Yue,
- Abstract要約: テキスト・トゥ・モーション・ジェネレーションの急速な進歩は、拡散モデルによって大きく推進されている。
We propose **Fre*quency **e*nhanced **t**ext-**to*-****otion diffusion model (**Free-T2M**)。
本手法は,FIDを*0.189*から*0.051*に還元し,拡散構造内に新たなSOTA性能を確立する。
- 参考スコア(独自算出の注目度): 2.2512611532302316
- License:
- Abstract: Rapid progress in text-to-motion generation has been largely driven by diffusion models. However, existing methods focus solely on temporal modeling, thereby overlooking frequency-domain analysis. We identify two key phases in motion denoising: the **semantic planning stage** and the **fine-grained improving stage**. To address these phases effectively, we propose **Fre**quency **e**nhanced **t**ext-**to**-**m**otion diffusion model (**Free-T2M**), incorporating stage-specific consistency losses that enhance the robustness of static features and improve fine-grained accuracy. Extensive experiments demonstrate the effectiveness of our method. Specifically, on StableMoFusion, our method reduces the FID from **0.189** to **0.051**, establishing a new SOTA performance within the diffusion architecture. These findings highlight the importance of incorporating frequency-domain insights into text-to-motion generation for more precise and robust results.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションの急速な進歩は、拡散モデルによって大きく推進されている。
しかし、既存の手法は時間的モデリングにのみ焦点をあて、周波数領域分析を見越す。
運動の2つの重要な位相を同定する:*意味的計画段階*と*微粒化改善段階*である。
これらの位相を効果的に扱うために,**Fre**quency **e*nhanced **t**ext-**to*-*m**otion diffusion model (**Free-T2M**)を提案する。
大規模な実験により,本手法の有効性が示された。
具体的には、StableMoFusionでは、FIDを*0.189*から*0.051*に削減し、拡散アーキテクチャ内で新たなSOTA性能を確立する。
これらの結果は、より正確で堅牢な結果を得るために、テキスト・ツー・モーション・ジェネレーションに周波数領域の洞察を取り入れることの重要性を強調している。
関連論文リスト
- Region-Adaptive Sampling for Diffusion Transformers [23.404921023113324]
RASは、DiTモデルの焦点に基づいて、画像内の領域に異なるサンプリング比を動的に割り当てる。
安定拡散3とLumina-Next-T2IのRASを評価し,それぞれ2.36xと2.51xの高速化を実現し,生成品質の低下を最小限に抑えた。
論文 参考訳(メタデータ) (2025-02-14T18:59:36Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。
これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。
我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文 参考訳(メタデータ) (2024-11-27T17:51:44Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture [42.51987004849891]
Video Motion Magnificationは、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。
動作拡大のための周波数デカップリングの新しいパラダイムであるFD4MMについて述べる。
FD4MMはFLOPを1.63$times$に削減し、推論速度を1.68$times$に向上させる。
論文 参考訳(メタデータ) (2024-03-12T06:07:29Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。