論文の概要: MotionFix: Text-Driven 3D Human Motion Editing
- arxiv url: http://arxiv.org/abs/2408.00712v1
- Date: Thu, 1 Aug 2024 16:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:47:32.133394
- Title: MotionFix: Text-Driven 3D Human Motion Editing
- Title(参考訳): MotionFix:テキスト駆動の人間の3Dモーション編集
- Authors: Nikos Athanasiou, Alpár Ceske, Markos Diomataris, Michael J. Black, Gül Varol,
- Abstract要約: 人間の3D動作を前提として,テキストに記述された編集動作を生成することが目的である。
課題には、トレーニングデータの欠如と、ソースの動きを忠実に編集するモデルの設計が含まれる。
我々は、ソースモーションの形でトリップレットのデータセットを半自動で収集する手法を構築し、(ii)ターゲットモーションと(iii)編集テキストを作成し、新しいMotionFixデータセットを作成する。
- 参考スコア(独自算出の注目度): 52.11745508960547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of this paper is 3D motion editing. Given a 3D human motion and a textual description of the desired modification, our goal is to generate an edited motion as described by the text. The challenges include the lack of training data and the design of a model that faithfully edits the source motion. In this paper, we address both these challenges. We build a methodology to semi-automatically collect a dataset of triplets in the form of (i) a source motion, (ii) a target motion, and (iii) an edit text, and create the new MotionFix dataset. Having access to such data allows us to train a conditional diffusion model, TMED, that takes both the source motion and the edit text as input. We further build various baselines trained only on text-motion pairs datasets, and show superior performance of our model trained on triplets. We introduce new retrieval-based metrics for motion editing and establish a new benchmark on the evaluation set of MotionFix. Our results are encouraging, paving the way for further research on finegrained motion generation. Code and models will be made publicly available.
- Abstract(参考訳): 本論文の焦点は3次元モーション編集である。
人間の3D動作と所望の修正のテキスト記述を前提として,本文で記述した編集動作を生成することが目的である。
課題には、トレーニングデータの欠如と、ソースの動きを忠実に編集するモデルの設計が含まれる。
本稿では,これら2つの課題に対処する。
私たちは、トリオレットのデータセットを半自動で収集する方法論を構築します。
(i)震源運動
(ii)目標運動、及び
(iii) 編集テキストを作成し、新しいMotionFixデータセットを作成する。
このようなデータにアクセスすることで、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
さらに、テキストモーションペアのデータセットのみに基づいてトレーニングされたさまざまなベースラインを構築し、トリップレットでトレーニングされたモデルの優れたパフォーマンスを示す。
我々は、モーション編集のための新しい検索ベースのメトリクスを導入し、MotionFixの評価セットに関する新しいベンチマークを確立する。
我々の研究成果は、より微細な運動生成の研究の道を開くことを目的としている。
コードとモデルは公開されます。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文 参考訳(メタデータ) (2024-12-17T17:34:52Z) - CigTime: Corrective Instruction Generation Through Inverse Motion Editing [12.947526481961516]
ユーザの現在の動作(ソース)と所望の動作(ターゲット)が与えられた場合,ユーザを目標動作に導くためのテキスト命令を生成する。
我々は、大規模な言語モデルを利用して修正テキストを生成し、既存のモーション生成および編集フレームワークを利用する。
提案手法は,ユーザパフォーマンスを改善・改善するためのテキストベースのガイダンスを提供することにより,教育シナリオにおけるその効果を実証する。
論文 参考訳(メタデータ) (2024-12-06T22:57:36Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。