論文の概要: ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model
- arxiv url: http://arxiv.org/abs/2304.01116v1
- Date: Mon, 3 Apr 2023 16:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:24:24.937028
- Title: ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model
- Title(参考訳): ReMoDiffuse:Retrieval-Augmented Motion Diffusion Model
- Authors: Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong,
Huirong Li, Lei Yang, Ziwei Liu
- Abstract要約: 3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
- 参考スコア(独自算出の注目度): 33.64263969970544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human motion generation is crucial for creative industry. Recent advances
rely on generative models with domain knowledge for text-driven motion
generation, leading to substantial progress in capturing common motions.
However, the performance on more diverse motions remains unsatisfactory. In
this work, we propose ReMoDiffuse, a diffusion-model-based motion generation
framework that integrates a retrieval mechanism to refine the denoising
process. ReMoDiffuse enhances the generalizability and diversity of text-driven
motion generation with three key designs: 1) Hybrid Retrieval finds appropriate
references from the database in terms of both semantic and kinematic
similarities. 2) Semantic-Modulated Transformer selectively absorbs retrieval
knowledge, adapting to the difference between retrieved samples and the target
motion sequence. 3) Condition Mixture better utilizes the retrieval database
during inference, overcoming the scale sensitivity in classifier-free guidance.
Extensive experiments demonstrate that ReMoDiffuse outperforms state-of-the-art
methods by balancing both text-motion consistency and motion quality,
especially for more diverse motion generation.
- Abstract(参考訳): 3Dモーション生成はクリエイティブ産業にとって不可欠だ。
最近の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
しかし、より多様な動きでの演奏は満足できないままである。
本研究では,検索機構を統合した拡散モデルに基づく動き生成フレームワーク remodiffuse を提案する。
ReMoDiffuseは3つの重要な設計でテキスト駆動モーション生成の一般化性と多様性を高める
1) ハイブリッド検索は, 意味的およびキネマティックな類似性の観点から, データベースから適切な参照を求める。
2)Semantic-Modulated Transformerは検索知識を選択的に吸収し,検索したサンプルと対象の動作シーケンスの差に適応する。
3) 条件混合は, 推論中に検索データベースをより活用し, 分類器フリーガイダンスの尺度感度を克服する。
広範な実験により、remodiffuseは、特により多様なモーション生成のために、テキスト・モーションの一貫性と動作品質の両方をバランスさせることにより、最先端の手法よりも優れていることが示されている。
関連論文リスト
- MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。
得られた動きの空間的組成から多様なサンプルを作成する。
我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-18T17:03:30Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Controllable Motion Synthesis and Reconstruction with Autoregressive
Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。
本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文 参考訳(メタデータ) (2023-04-03T08:17:08Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。