論文の概要: MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
- arxiv url: http://arxiv.org/abs/2406.01867v2
- Date: Thu, 18 Jul 2024 07:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:32:20.289747
- Title: MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
- Title(参考訳): MoLA: 逆行訓練により増強された潜伏拡散による運動生成と編集
- Authors: Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: 高速かつ高品質なモーション生成を実現し,複数の編集タスクをひとつのフレームワークで処理可能なMoLAを提案する。
高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。
本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。
- 参考スコア(独自算出の注目度): 19.619603595952512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In motion generation, controllability as well as generation quality and speed is becoming more and more important. There are various motion editing tasks, such as in-betweening, upper body editing, and path-following, but existing methods perform motion editing with a data-space diffusion model, which is slow in inference compared to a latent diffusion model. In this paper, we propose MoLA, which provides fast and high-quality motion generation and also can deal with multiple editing tasks in a single framework. For high-quality and fast generation, we employ a variational autoencoder and latent diffusion model, and improve the performance with adversarial training. In addition, we apply a training-free guided generation framework to achieve various editing tasks with motion control inputs. We quantitatively show the effectiveness of adversarial learning in text-to-motion generation, and demonstrate the applicability of our editing framework to multiple editing tasks in the motion domain.
- Abstract(参考訳): モーションジェネレーションでは、制御性や生成品質、速度がますます重要になっている。
動作編集タスクは, 内装, 上体編集, パス追従など多岐にわたるが, 既存の手法では, 遅延拡散モデルに比べて推論が遅いデータ空間拡散モデルを用いて動作編集を行う。
本稿では,高速かつ高品質なモーション生成を実現するMoLAを提案する。
高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。
さらに、動作制御入力を用いた様々な編集タスクを実現するために、トレーニング不要のガイド付き生成フレームワークを適用した。
本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。
関連論文リスト
- Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。
Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。
実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-17T08:52:45Z) - MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm [6.920041357348772]
人間の動きの生成と編集はコンピュータグラフィックスと視覚の重要な要素である。
本稿では,多様なタスクの統一的な定式化を可能にする新しいパラダイムであるMotion-Condition-Motionを紹介する。
このパラダイムに基づいて、ソースモーションからターゲットモーションへのマッピングを学習するために、修正フローを組み込んだ統合フレームワーク、MotionLabを提案する。
論文 参考訳(メタデータ) (2025-02-04T14:43:26Z) - CigTime: Corrective Instruction Generation Through Inverse Motion Editing [12.947526481961516]
ユーザの現在の動作(ソース)と所望の動作(ターゲット)が与えられた場合,ユーザを目標動作に導くためのテキスト命令を生成する。
我々は、大規模な言語モデルを利用して修正テキストを生成し、既存のモーション生成および編集フレームワークを利用する。
提案手法は,ユーザパフォーマンスを改善・改善するためのテキストベースのガイダンスを提供することにより,教育シナリオにおけるその効果を実証する。
論文 参考訳(メタデータ) (2024-12-06T22:57:36Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Motion In-Betweening with Phase Manifolds [29.673541655825332]
本稿では,周期的オートエンコーダによって学習された位相変数を利用して,文字のターゲットポーズに到達するための,新たなデータ駆動型動作制御システムを提案する。
提案手法では,経験的ニューラルネットワークモデルを用いて,空間と時間の両方のクラスタの動きを,異なる専門家の重みで解析する。
論文 参考訳(メタデータ) (2023-08-24T12:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。