論文の概要: MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis
- arxiv url: http://arxiv.org/abs/2212.04495v1
- Date: Thu, 8 Dec 2022 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:01:32.885744
- Title: MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis
- Title(参考訳): MoFusion: Denoising-Diffusion-based Motion Synthesisのためのフレームワーク
- Authors: Rishabh Dabral and Muhammad Hamza Mughal and Vladislav Golyanik and
Christian Theobalt
- Abstract要約: MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
- 参考スコア(独自算出の注目度): 73.52948992990191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional methods for human motion synthesis are either deterministic or
struggle with the trade-off between motion diversity and motion quality. In
response to these limitations, we introduce MoFusion, i.e., a new
denoising-diffusion-based framework for high-quality conditional human motion
synthesis that can generate long, temporally plausible, and semantically
accurate motions based on a range of conditioning contexts (such as music and
text). We also present ways to introduce well-known kinematic losses for motion
plausibility within the motion diffusion framework through our scheduled
weighting strategy. The learned latent space can be used for several
interactive motion editing applications -- like inbetweening, seed
conditioning, and text-based editing -- thus, providing crucial abilities for
virtual character animation and robotics. Through comprehensive quantitative
evaluations and a perceptual user study, we demonstrate the effectiveness of
MoFusion compared to the state of the art on established benchmarks in the
literature. We urge the reader to watch our supplementary video and visit
https://vcai.mpi-inf.mpg.de/projects/MoFusion.
- Abstract(参考訳): 従来の人間の運動合成法は決定論的か、あるいは運動の多様性と運動の質のトレードオフに苦しむ。
これらの制約に対応するために,様々な条件付けの文脈(音楽やテキストなど)に基づいて,長時間,時間的,意味的に正確な動きを生成可能な,高品質な条件付きヒューマンモーション合成のための新しいデノイズ・ディフフュージョンベースのフレームワークであるmofusionを導入する。
また, 運動拡散フレームワークにおける運動可能性について, 計画的な重み付け戦略を通じて, よく知られた運動的損失を導入する方法を提案する。
学習された潜在性空間は、インタクション、シードコンディショニング、テキストベースの編集など、いくつかのインタラクティブなモーション編集アプリケーションで使用できるため、仮想キャラクタアニメーションとロボティクスに不可欠な能力を提供する。
包括的定量的評価と知覚的ユーザ調査を通じて,本論文の確立したベンチマークにおけるmofusionの有効性を比較検討した。
我々は、読者に私たちの補足ビデオを見て、https://vcai.mpi-inf.mpg.de/projects/MoFusion.comを訪れるように促します。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。
得られた動きの空間的組成から多様なサンプルを作成する。
我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-18T17:03:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。