Fugu-MT 論文翻訳(概要): Free-T2M: Frequency Enhanced Text-to-Motion Diffusion Model With Consistency Loss

論文の概要: Free-T2M: Frequency Enhanced Text-to-Motion Diffusion Model With Consistency Loss

arxiv url: http://arxiv.org/abs/2501.18232v1
Date: Thu, 30 Jan 2025 09:45:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.103675
Title: Free-T2M: Frequency Enhanced Text-to-Motion Diffusion Model With Consistency Loss
Title（参考訳）: Free-T2M: 一貫性損失を伴う周波数拡張テキスト-運動拡散モデル
Authors: Wenshuo Chen, Haozhe Jia, Songning Lai, Keming Wu, Hongru Xiao, Lijie Hu, Yutao Yue,
Abstract要約: テキスト・トゥ・モーション・ジェネレーションの急速な進歩は、拡散モデルによって大きく推進されている。 We propose **Fre*quency **e*nhanced **t**ext-**to*-****otion diffusion model (**Free-T2M**)。本手法は,FIDを*0.189*から*0.051*に還元し,拡散構造内に新たなSOTA性能を確立する。
参考スコア（独自算出の注目度）: 2.2512611532302316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rapid progress in text-to-motion generation has been largely driven by diffusion models. However, existing methods focus solely on temporal modeling, thereby overlooking frequency-domain analysis. We identify two key phases in motion denoising: the **semantic planning stage** and the **fine-grained improving stage**. To address these phases effectively, we propose **Fre**quency **e**nhanced **t**ext-**to**-**m**otion diffusion model (**Free-T2M**), incorporating stage-specific consistency losses that enhance the robustness of static features and improve fine-grained accuracy. Extensive experiments demonstrate the effectiveness of our method. Specifically, on StableMoFusion, our method reduces the FID from **0.189** to **0.051**, establishing a new SOTA performance within the diffusion architecture. These findings highlight the importance of incorporating frequency-domain insights into text-to-motion generation for more precise and robust results.
Abstract（参考訳）: テキスト・トゥ・モーション・ジェネレーションの急速な進歩は、拡散モデルによって大きく推進されている。しかし、既存の手法は時間的モデリングにのみ焦点をあて、周波数領域分析を見越す。運動の2つの重要な位相を同定する:*意味的計画段階*と*微粒化改善段階*である。これらの位相を効果的に扱うために,**Fre**quency **e*nhanced **t**ext-**to*-*m**otion diffusion model (**Free-T2M**)を提案する。大規模な実験により,本手法の有効性が示された。具体的には、StableMoFusionでは、FIDを*0.189*から*0.051*に削減し、拡散アーキテクチャ内で新たなSOTA性能を確立する。これらの結果は、より正確で堅牢な結果を得るために、テキスト・ツー・モーション・ジェネレーションに周波数領域の洞察を取り入れることの重要性を強調している。

関連論文リスト

One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Region-Adaptive Sampling for Diffusion Transformers [23.404921023113324]
RASは、DiTモデルの焦点に基づいて、画像内の領域に異なるサンプリング比を動的に割り当てる。安定拡散3とLumina-Next-T2IのRASを評価し,それぞれ2.36xと2.51xの高速化を実現し,生成品質の低下を最小限に抑えた。
論文参考訳（メタデータ） (2025-02-14T18:59:36Z)
Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。 ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。 ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文参考訳（メタデータ） (2025-01-22T18:59:58Z)
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文参考訳（メタデータ） (2024-11-27T17:51:44Z)
FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文参考訳（メタデータ） (2024-11-26T15:48:12Z)
Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture [42.51987004849891]
Video Motion Magnificationは、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。動作拡大のための周波数デカップリングの新しいパラダイムであるFD4MMについて述べる。 FD4MMはFLOPを1.63$times$に削減し、推論速度を1.68$times$に向上させる。
論文参考訳（メタデータ） (2024-03-12T06:07:29Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文参考訳（メタデータ） (2023-06-12T09:38:04Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。 ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。 ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文参考訳（メタデータ） (2022-07-13T17:45:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。