論文の概要: FLAME: Free-form Language-based Motion Synthesis & Editing
- arxiv url: http://arxiv.org/abs/2209.00349v1
- Date: Thu, 1 Sep 2022 10:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:15:14.591930
- Title: FLAME: Free-form Language-based Motion Synthesis & Editing
- Title(参考訳): flame: フリーフォーム言語ベースのモーション合成と編集
- Authors: Jihoon Kim, Jiseob Kim, Sungjoon Choi
- Abstract要約: FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
- 参考スコア(独自算出の注目度): 17.70085940884357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-based motion generation models are drawing a surge of interest for their
potential for automating the motion-making process in the game, animation, or
robot industries. In this paper, we propose a diffusion-based motion synthesis
and editing model named FLAME. Inspired by the recent successes in diffusion
models, we integrate diffusion-based generative models into the motion domain.
FLAME can generate high-fidelity motions well aligned with the given text.
Also, it can edit the parts of the motion, both frame-wise and joint-wise,
without any fine-tuning. FLAME involves a new transformer-based architecture we
devise to better handle motion data, which is found to be crucial to manage
variable-length motions and well attend to free-form text. In experiments, we
show that FLAME achieves state-of-the-art generation performances on three
text-motion datasets: HumanML3D, BABEL, and KIT. We also demonstrate that
editing capability of FLAME can be extended to other tasks such as motion
prediction or motion in-betweening, which have been previously covered by
dedicated models.
- Abstract(参考訳): テキストベースのモーション生成モデルは、ゲーム、アニメーション、ロボット産業におけるモーション作成プロセスを自動化する可能性への関心が高まっている。
本稿では,FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
近年の拡散モデルの成功に触発されて、拡散に基づく生成モデルを運動領域に統合する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
また、フレームとジョイントの両方で、微調整することなく、モーションの一部を編集できる。
FLAMEには、より優れた動きデータを扱うために考案した新しいトランスフォーマーベースのアーキテクチャが含まれています。
実験の結果,FLAMEはHumanML3D,BABEL,KITの3つのテキスト・モーション・データセット上で,最先端のテキスト生成性能を実現することがわかった。
また,フレイムの編集機能を,従来専用モデルでカバーされていた動作予測や動作間移動といった他のタスクにも拡張可能であることを実証した。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。
得られた動きの空間的組成から多様なサンプルを作成する。
我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-18T17:03:30Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。