論文の概要: MotionFix: Text-Driven 3D Human Motion Editing
- arxiv url: http://arxiv.org/abs/2408.00712v3
- Date: Sun, 24 Nov 2024 13:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:14:27.206232
- Title: MotionFix: Text-Driven 3D Human Motion Editing
- Title(参考訳): MotionFix:テキスト駆動の人間の3Dモーション編集
- Authors: Nikos Athanasiou, Alpár Cseke, Markos Diomataris, Michael J. Black, Gül Varol,
- Abstract要約: 主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
- 参考スコア(独自算出の注目度): 52.11745508960547
- License:
- Abstract: The focus of this paper is on 3D motion editing. Given a 3D human motion and a textual description of the desired modification, our goal is to generate an edited motion as described by the text. The key challenges include the scarcity of training data and the need to design a model that accurately edits the source motion. In this paper, we address both challenges. We propose a methodology to semi-automatically collect a dataset of triplets comprising (i) a source motion, (ii) a target motion, and (iii) an edit text, introducing the new MotionFix dataset. Access to this data allows us to train a conditional diffusion model, TMED, that takes both the source motion and the edit text as input. We develop several baselines to evaluate our model, comparing it against models trained solely on text-motion pair datasets, and demonstrate the superior performance of our model trained on triplets. We also introduce new retrieval-based metrics for motion editing, establishing a benchmark on the evaluation set of MotionFix. Our results are promising, paving the way for further research in fine-grained motion generation. Code, models, and data are available at https://motionfix.is.tue.mpg.de/ .
- Abstract(参考訳): 本論文の焦点は3次元モーション編集である。
人間の3D動作と所望の修正のテキスト記述を前提として,本文で記述した編集動作を生成することが目的である。
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルを設計する必要があることである。
本稿では,両課題に対処する。
本稿では,三重項を構成するデータセットを半自動で収集する手法を提案する。
(i)震源運動
(ii)目標運動、及び
(iii)新しいMotionFixデータセットを導入した編集テキスト。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
そこで本研究では,テキスト・モーション・ペア・データセットのみをトレーニングしたモデルと比較し,トリップレットでトレーニングしたモデルの優れた性能を示す。
また,モーション編集のための新しい検索基準を導入し,MotionFixの評価セットのベンチマークを確立する。
我々の成果は有望であり、より微細な動き生成のさらなる研究の道を開いた。
コード、モデル、データはhttps://motionfix.is.tue.mpg.de/で公開されている。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文 参考訳(メタデータ) (2024-12-17T17:34:52Z) - CigTime: Corrective Instruction Generation Through Inverse Motion Editing [12.947526481961516]
ユーザの現在の動作(ソース)と所望の動作(ターゲット)が与えられた場合,ユーザを目標動作に導くためのテキスト命令を生成する。
我々は、大規模な言語モデルを利用して修正テキストを生成し、既存のモーション生成および編集フレームワークを利用する。
提案手法は,ユーザパフォーマンスを改善・改善するためのテキストベースのガイダンスを提供することにより,教育シナリオにおけるその効果を実証する。
論文 参考訳(メタデータ) (2024-12-06T22:57:36Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。