論文の概要: MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
- arxiv url: http://arxiv.org/abs/2502.02358v4
- Date: Wed, 12 Mar 2025 11:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:43.781066
- Title: MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
- Title(参考訳): MotionLab:Motion-Condition-Motion Paradigmによる統一されたモーション生成と編集
- Authors: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh,
- Abstract要約: 人間の動きの生成と編集はコンピュータグラフィックスと視覚の重要な要素である。
本稿では,多様なタスクの統一的な定式化を可能にする新しいパラダイムであるMotion-Condition-Motionを紹介する。
このパラダイムに基づいて、ソースモーションからターゲットモーションへのマッピングを学習するために、修正フローを組み込んだ統合フレームワーク、MotionLabを提案する。
- 参考スコア(独自算出の注目度): 6.920041357348772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.
- Abstract(参考訳): 人間の動きの生成と編集はコンピュータグラフィックスと視覚の重要な要素である。
しかし、この分野での現在のアプローチは、特定のタスクに適した分離されたソリューションを提供する傾向にあり、これは現実のアプリケーションでは非効率で実用的ではない。
動作関連タスクを統一する試みもあるが、これらの手法は単に動作生成を誘導するための条件として異なるモダリティを使用するだけである。
その結果、編集機能がなく、きめ細かい制御ができず、タスク間の知識共有が困難になる。
これらの制約に対処し、人間の動きの生成と編集の両方を扱える汎用的で統一的なフレームワークを提供するために、我々は新しいパラダイム、Motion-Condition-Motionを導入し、ソースモーション、条件、ターゲットモーションの3つの概念で多様なタスクの統一的な定式化を可能にした。
このパラダイムに基づいて,修正フローを組み込んだ統合フレームワークMotionLabを提案し,特定の条件でガイドされたソースモーションからターゲットモーションへのマッピングを学習する。
MotionLabで紹介する
1) タスク固有のモジュールを使わずに条件付き生成及び編集を強化するMotionFlow Transformer
2 震源運動と目標運動との時間同期を保証するための回転位置符号化
3) タスク特定命令変更,及び
4)タスク間の効果的なマルチタスク学習と知識共有のための運動カリキュラム学習。
特に、MotionLabは有望な一般化能力と推論効率を、複数のベンチマークで示しています。
私たちのコードと追加のビデオ結果は、https://diouo.github.io/motionlab.github.io/で公開されています。
関連論文リスト
- ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer [44.33224798292861]
ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。
多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。
ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-03T10:15:52Z) - SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction [20.89960239295474]
本稿では,関連するタスク,動作類似度予測を導入し,マルチタスク学習パラダイムを提案する。
我々は、意味論的意味のある表現の学習を促進するために、動きの編集と動きの類似性予測を共同で訓練する。
実験は、アライメントと忠実さの両面において、我々のアプローチの最先端性能を実証した。
論文 参考訳(メタデータ) (2025-03-23T21:29:37Z) - MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。
これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。
MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文 参考訳(メタデータ) (2025-03-22T08:32:56Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training [19.619603595952512]
高速かつ高品質なモーション生成を実現し,複数の編集タスクをひとつのフレームワークで処理可能なMoLAを提案する。
高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。
本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。
論文 参考訳(メタデータ) (2024-06-04T00:38:44Z) - Programmable Motion Generation for Open-Set Motion Control Tasks [51.73738359209987]
我々は新しいパラダイム、プログラム可能なモーション生成を導入する。
このパラダイムでは、任意の運動制御タスクは原子制約の組み合わせに分解される。
これらの制約は、運動列がそれに付着する程度を定量化するエラー関数にプログラムされる。
論文 参考訳(メタデータ) (2024-05-29T17:14:55Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。