論文の概要: MotionFix: Text-Driven 3D Human Motion Editing
- arxiv url: http://arxiv.org/abs/2408.00712v1
- Date: Thu, 1 Aug 2024 16:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:47:32.133394
- Title: MotionFix: Text-Driven 3D Human Motion Editing
- Title(参考訳): MotionFix:テキスト駆動の人間の3Dモーション編集
- Authors: Nikos Athanasiou, Alpár Ceske, Markos Diomataris, Michael J. Black, Gül Varol,
- Abstract要約: 人間の3D動作を前提として,テキストに記述された編集動作を生成することが目的である。
課題には、トレーニングデータの欠如と、ソースの動きを忠実に編集するモデルの設計が含まれる。
我々は、ソースモーションの形でトリップレットのデータセットを半自動で収集する手法を構築し、(ii)ターゲットモーションと(iii)編集テキストを作成し、新しいMotionFixデータセットを作成する。
- 参考スコア(独自算出の注目度): 52.11745508960547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of this paper is 3D motion editing. Given a 3D human motion and a textual description of the desired modification, our goal is to generate an edited motion as described by the text. The challenges include the lack of training data and the design of a model that faithfully edits the source motion. In this paper, we address both these challenges. We build a methodology to semi-automatically collect a dataset of triplets in the form of (i) a source motion, (ii) a target motion, and (iii) an edit text, and create the new MotionFix dataset. Having access to such data allows us to train a conditional diffusion model, TMED, that takes both the source motion and the edit text as input. We further build various baselines trained only on text-motion pairs datasets, and show superior performance of our model trained on triplets. We introduce new retrieval-based metrics for motion editing and establish a new benchmark on the evaluation set of MotionFix. Our results are encouraging, paving the way for further research on finegrained motion generation. Code and models will be made publicly available.
- Abstract(参考訳): 本論文の焦点は3次元モーション編集である。
人間の3D動作と所望の修正のテキスト記述を前提として,本文で記述した編集動作を生成することが目的である。
課題には、トレーニングデータの欠如と、ソースの動きを忠実に編集するモデルの設計が含まれる。
本稿では,これら2つの課題に対処する。
私たちは、トリオレットのデータセットを半自動で収集する方法論を構築します。
(i)震源運動
(ii)目標運動、及び
(iii) 編集テキストを作成し、新しいMotionFixデータセットを作成する。
このようなデータにアクセスすることで、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
さらに、テキストモーションペアのデータセットのみに基づいてトレーニングされたさまざまなベースラインを構築し、トリップレットでトレーニングされたモデルの優れたパフォーマンスを示す。
我々は、モーション編集のための新しい検索ベースのメトリクスを導入し、MotionFixの評価セットに関する新しいベンチマークを確立する。
我々の研究成果は、より微細な運動生成の研究の道を開くことを目的としている。
コードとモデルは公開されます。
関連論文リスト
- Enhancing Motion Variation in Text-to-Motion Models via Pose and Video Conditioned Editing [0.7346176144621106]
本稿では,既存の基本動作を修正するための条件として,短いビデオクリップや画像を使用する新しい手法を提案する。
このアプローチでは、モデルのキックに対する理解が先行として機能し、フットボールキックのビデオやイメージが後部として機能する。
26名の被験者によるユーザスタディにより,本手法はテキスト・モーション・データセットにおいて,一般的に表現される動きに匹敵するリアルな動きを生み出すことを示した。
論文 参考訳(メタデータ) (2024-10-11T15:59:10Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。