Fugu-MT 論文翻訳(概要): FTMoMamba: Motion Generation with Frequency and Text State Space Models

論文の概要: FTMoMamba: Motion Generation with Frequency and Text State Space Models

arxiv url: http://arxiv.org/abs/2411.17532v1
Date: Tue, 26 Nov 2024 15:48:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:51.154516
Title: FTMoMamba: Motion Generation with Frequency and Text State Space Models
Title（参考訳）: FTMoMamba: 周波数およびテキスト状態空間モデルによる運動生成
Authors: Chengjian Li, Xiangbo Shu, Qiongjie Cui, Yazhou Yao, Jinhui Tang,
Abstract要約: 本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
参考スコア（独自算出の注目度）: 53.60865359814126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models achieve impressive performance in human motion generation. However, current approaches typically ignore the significance of frequency-domain information in capturing fine-grained motions within the latent space (e.g., low frequencies correlate with static poses, and high frequencies align with fine-grained motions). Additionally, there is a semantic discrepancy between text and motion, leading to inconsistency between the generated motions and the text descriptions. In this work, we propose a novel diffusion-based FTMoMamba framework equipped with a Frequency State Space Model (FreqSSM) and a Text State Space Model (TextSSM). Specifically, to learn fine-grained representation, FreqSSM decomposes sequences into low-frequency and high-frequency components, guiding the generation of static pose (e.g., sits, lay) and fine-grained motions (e.g., transition, stumble), respectively. To ensure the consistency between text and motion, TextSSM encodes text features at the sentence level, aligning textual semantics with sequential features. Extensive experiments show that FTMoMamba achieves superior performance on the text-to-motion generation task, especially gaining the lowest FID of 0.181 (rather lower than 0.421 of MLD) on the HumanML3D dataset.
Abstract（参考訳）: 拡散モデルは人間の運動生成において印象的な性能を達成する。しかし、現在のアプローチは一般に、潜伏空間内の細粒度の動きを捉える際の周波数領域情報の重要性を無視している(例えば、低周波は静止ポーズと相関し、高周波は細粒度の動きと一致している)。さらに、テキストと動作には意味的な相違があり、生成された動きとテキスト記述との間には矛盾が生じている。本研究では,周波数状態空間モデル (FreqSSM) とテキスト状態空間モデル (TextSSM) を備えた新しい拡散型FTMoMambaフレームワークを提案する。具体的には、微細な表現を学ぶために、FreqSSMはシーケンスを低周波成分と高周波成分に分解し、静的ポーズ(例えば、座、横)と微粒な動き(例えば、遷移、斜め)の生成を導く。テキストと動作の整合性を確保するため、TextSSMはテキスト機能をテキストレベルでエンコードし、テキストの意味をシーケンシャルな特徴と整合させる。 FTMoMambaはテキスト・トゥ・モーション生成タスクにおいて、特にHumanML3Dデータセット上で0.181(MLDの0.421以下)のFIDを得る上で、優れたパフォーマンスを達成している。

関連論文リスト

PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文参考訳（メタデータ） (2025-01-27T22:51:45Z)
MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。 MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文参考訳（メタデータ） (2024-11-29T15:48:24Z)
DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。 DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-07T17:58:22Z)
Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文参考訳（メタデータ） (2024-02-23T18:59:40Z)
DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文参考訳（メタデータ） (2023-12-07T04:39:22Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文参考訳（メタデータ） (2023-05-25T08:32:41Z)
MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文参考訳（メタデータ） (2022-12-08T18:59:48Z)
Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文参考訳（メタデータ） (2022-10-06T12:43:07Z)
TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of 3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文参考訳（メタデータ） (2022-07-04T19:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。