論文の概要: MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
- arxiv url: http://arxiv.org/abs/2406.01867v4
- Date: Mon, 14 Apr 2025 08:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 19:48:45.365668
- Title: MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
- Title(参考訳): MoLA: 逆行訓練により増強された潜伏拡散による運動生成と編集
- Authors: Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Julian Tanke, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: テキスト・ツー・モーション・ジェネレーションでは、制御性だけでなく、生成品質やスピードもますます重要になっている。
高速で高品質で可変長のモーション生成が可能なMoLAを提案する。
- 参考スコア(独自算出の注目度): 19.550281954226445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text-to-motion generation, controllability as well as generation quality and speed has become increasingly critical. The controllability challenges include generating a motion of a length that matches the given textual description and editing the generated motions according to control signals, such as the start-end positions and the pelvis trajectory. In this paper, we propose MoLA, which provides fast, high-quality, variable-length motion generation and can also deal with multiple editing tasks in a single framework. Our approach revisits the motion representation used as inputs and outputs in the model, incorporating an activation variable to enable variable-length motion generation. Additionally, we integrate a variational autoencoder and a latent diffusion model, further enhanced through adversarial training, to achieve high-quality and fast generation. Moreover, we apply a training-free guided generation framework to achieve various editing tasks with motion control inputs. We quantitatively show the effectiveness of adversarial learning in text-to-motion generation, and demonstrate the applicability of our editing framework to multiple editing tasks in the motion domain.
- Abstract(参考訳): テキスト・ツー・モーション・ジェネレーションでは、制御性だけでなく、生成品質やスピードもますます重要になっている。
制御可能性の課題は、与えられたテキスト記述と一致する長さの動きを生成し、生成した動きを、開始位置や骨盤軌道などの制御信号に従って編集することである。
本稿では,高速かつ高品質で可変長のモーション生成が可能なMoLAを提案する。
提案手法では,モデル内の入力および出力として使用される動作表現を再検討し,可変長の動作生成を可能にするアクティベーション変数を組み込んだ。
さらに, 変動型オートエンコーダと潜時拡散モデルを統合し, 対戦訓練によりさらに強化し, 高品質かつ高速な生成を実現する。
さらに、動作制御入力を用いた様々な編集タスクを実現するために、トレーニング不要のガイド付き生成フレームワークを適用した。
本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。
関連論文リスト
- Dynamic Motion Blending for Versatile Motion Editing [43.10279926787476]
我々は、入力テキストに基づいて身体部分の動きをブレンドすることでトレーニングトレーレットを生成するオンラインデータ拡張技術であるMotionMixCutを紹介する。
我々は、モーションコーディネータを備えた自己回帰拡散モデルであるMotionReFitを提案する。
提案手法は,高レベルの人的指示から直接,空間的および時間的動作の編集を行う。
論文 参考訳(メタデータ) (2025-03-26T17:07:24Z) - Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。
Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。
実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-17T08:52:45Z) - MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm [6.920041357348772]
人間の動きの生成と編集はコンピュータグラフィックスと視覚の重要な要素である。
本稿では,多様なタスクの統一的な定式化を可能にする新しいパラダイムであるMotion-Condition-Motionを紹介する。
このパラダイムに基づいて、ソースモーションからターゲットモーションへのマッピングを学習するために、修正フローを組み込んだ統合フレームワーク、MotionLabを提案する。
論文 参考訳(メタデータ) (2025-02-04T14:43:26Z) - CigTime: Corrective Instruction Generation Through Inverse Motion Editing [12.947526481961516]
ユーザの現在の動作(ソース)と所望の動作(ターゲット)が与えられた場合,ユーザを目標動作に導くためのテキスト命令を生成する。
我々は、大規模な言語モデルを利用して修正テキストを生成し、既存のモーション生成および編集フレームワークを利用する。
提案手法は,ユーザパフォーマンスを改善・改善するためのテキストベースのガイダンスを提供することにより,教育シナリオにおけるその効果を実証する。
論文 参考訳(メタデータ) (2024-12-06T22:57:36Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。