Fugu-MT 論文翻訳(概要): MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training

論文の概要: MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training

arxiv url: http://arxiv.org/abs/2406.01867v2
Date: Thu, 18 Jul 2024 07:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 20:32:20.289747
Title: MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
Title（参考訳）: MoLA: 逆行訓練により増強された潜伏拡散による運動生成と編集
Authors: Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Shusuke Takahashi, Yuki Mitsufuji,
Abstract要約: 高速かつ高品質なモーション生成を実現し,複数の編集タスクをひとつのフレームワークで処理可能なMoLAを提案する。高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。
参考スコア（独自算出の注目度）: 19.619603595952512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In motion generation, controllability as well as generation quality and speed is becoming more and more important. There are various motion editing tasks, such as in-betweening, upper body editing, and path-following, but existing methods perform motion editing with a data-space diffusion model, which is slow in inference compared to a latent diffusion model. In this paper, we propose MoLA, which provides fast and high-quality motion generation and also can deal with multiple editing tasks in a single framework. For high-quality and fast generation, we employ a variational autoencoder and latent diffusion model, and improve the performance with adversarial training. In addition, we apply a training-free guided generation framework to achieve various editing tasks with motion control inputs. We quantitatively show the effectiveness of adversarial learning in text-to-motion generation, and demonstrate the applicability of our editing framework to multiple editing tasks in the motion domain.
Abstract（参考訳）: モーションジェネレーションでは、制御性や生成品質、速度がますます重要になっている。動作編集タスクは, 内装, 上体編集, パス追従など多岐にわたるが, 既存の手法では, 遅延拡散モデルに比べて推論が遅いデータ空間拡散モデルを用いて動作編集を行う。本稿では,高速かつ高品質なモーション生成を実現するMoLAを提案する。高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。さらに、動作制御入力を用いた様々な編集タスクを実現するために、トレーニング不要のガイド付き生成フレームワークを適用した。本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。

関連論文リスト

Dynamic Motion Blending for Versatile Motion Editing [43.10279926787476]
我々は、入力テキストに基づいて身体部分の動きをブレンドすることでトレーニングトレーレットを生成するオンラインデータ拡張技術であるMotionMixCutを紹介する。我々は、モーションコーディネータを備えた自己回帰拡散モデルであるMotionReFitを提案する。提案手法は,高レベルの人的指示から直接,空間的および時間的動作の編集を行う。
論文参考訳（メタデータ） (2025-03-26T17:07:24Z)
Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。 Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文参考訳（メタデータ） (2025-02-17T08:52:45Z)
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文参考訳（メタデータ） (2025-02-05T14:26:07Z)
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm [6.920041357348772]
人間の動きの生成と編集はコンピュータグラフィックスと視覚の重要な要素である。本稿では,多様なタスクの統一的な定式化を可能にする新しいパラダイムであるMotion-Condition-Motionを紹介する。このパラダイムに基づいて、ソースモーションからターゲットモーションへのマッピングを学習するために、修正フローを組み込んだ統合フレームワーク、MotionLabを提案する。
論文参考訳（メタデータ） (2025-02-04T14:43:26Z)
CigTime: Corrective Instruction Generation Through Inverse Motion Editing [12.947526481961516]
ユーザの現在の動作(ソース)と所望の動作(ターゲット)が与えられた場合,ユーザを目標動作に導くためのテキスト命令を生成する。我々は、大規模な言語モデルを利用して修正テキストを生成し、既存のモーション生成および編集フレームワークを利用する。提案手法は,ユーザパフォーマンスを改善・改善するためのテキストベースのガイダンスを提供することにより,教育シナリオにおけるその効果を実証する。
論文参考訳（メタデータ） (2024-12-06T22:57:36Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文参考訳（メタデータ） (2024-07-11T12:33:56Z)
Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文参考訳（メタデータ） (2024-06-10T17:47:14Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文参考訳（メタデータ） (2024-05-23T17:59:40Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。 CoMoは、動きを離散的で意味のあるポーズコードに分解する。自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文参考訳（メタデータ） (2024-03-20T18:11:10Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文参考訳（メタデータ） (2022-12-08T18:59:48Z)
FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。 FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文参考訳（メタデータ） (2022-09-01T10:34:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。