Fugu-MT 論文翻訳(概要): Controllable Motion Diffusion Model

論文の概要: Controllable Motion Diffusion Model

arxiv url: http://arxiv.org/abs/2306.00416v1
Date: Thu, 1 Jun 2023 07:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 17:43:07.513288
Title: Controllable Motion Diffusion Model
Title（参考訳）: 制御可能な運動拡散モデル
Authors: Yi Shi and Jingbo Wang and Xuekun Jiang and Bo Dai
Abstract要約: 制御可能な運動拡散モデル(COMODO)の枠組みを提案する。我々のフレームワークは自動回帰運動拡散モデル(A-MDM)から始まり、ステップごとに動きのシーケンスを生成する。そこで本研究では,A-MDMモデル上での強化学習に基づく制御手法を提案する。
参考スコア（独自算出の注目度）: 59.52889433954535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating realistic and controllable motions for virtual characters is a challenging task in computer animation, and its implications extend to games, simulations, and virtual reality. Recent studies have drawn inspiration from the success of diffusion models in image generation, demonstrating the potential for addressing this task. However, the majority of these studies have been limited to offline applications that target at sequence-level generation that generates all steps simultaneously. To enable real-time motion synthesis with diffusion models in response to time-varying control signals, we propose the framework of the Controllable Motion Diffusion Model (COMODO). Our framework begins with an auto-regressive motion diffusion model (A-MDM), which generates motion sequences step by step. In this way, simply using the standard DDPM algorithm without any additional complexity, our framework is able to generate high-fidelity motion sequences over extended periods with different types of control signals. Then, we propose our reinforcement learning-based controller and controlling strategies on top of the A-MDM model, so that our framework can steer the motion synthesis process across multiple tasks, including target reaching, joystick-based control, goal-oriented control, and trajectory following. The proposed framework enables the real-time generation of diverse motions that react adaptively to user commands on-the-fly, thereby enhancing the overall user experience. Besides, it is compatible with the inpainting-based editing methods and can predict much more diverse motions without additional fine-tuning of the basic motion generation models. We conduct comprehensive experiments to evaluate the effectiveness of our framework in performing various tasks and compare its performance against state-of-the-art methods.
Abstract（参考訳）: 仮想文字のリアルで制御可能な動きを生成することは、コンピュータアニメーションにおいて難しい課題であり、その意味はゲーム、シミュレーション、バーチャルリアリティに及んでいる。近年の研究では、画像生成における拡散モデルの成功からインスピレーションを得て、この問題に対処する可能性を示している。しかしながら、これらの研究の大部分は、全てのステップを同時に生成するシーケンスレベルの生成をターゲットとするオフラインアプリケーションに限られている。時間変動制御信号に応答した拡散モデルを用いた実時間動き合成を実現するために,制御可能な動き拡散モデル(comodo)の枠組みを提案する。我々のフレームワークは自動回帰運動拡散モデル(A-MDM)から始まり、ステップごとに動きのシーケンスを生成する。このように、単に標準のddpmアルゴリズムを複雑さなしで使うだけで、異なる種類の制御信号を持つ長い期間にわたって、忠実度の高い動き列を生成できる。そこで我々は,A-MDMモデル上での強化学習に基づく制御と制御戦略を提案し,目標到達,ジョイスティックベース制御,目標指向制御,軌道追従など,複数のタスクにまたがる動作合成プロセスの制御を可能にする。提案フレームワークは,ユーザコマンドに適応的に反応する多様な動作をリアルタイムに生成し,ユーザエクスペリエンスを向上する。さらに、インパインティングベースの編集手法と互換性があり、基本的なモーション生成モデルを微調整することなく、より多様な動きを予測できる。我々は,様々なタスクの実行におけるフレームワークの有効性を総合的に評価し,その性能を最先端手法と比較する。

関連論文リスト

Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文参考訳（メタデータ） (2025-05-12T08:32:39Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文参考訳（メタデータ） (2024-11-25T15:36:29Z)
Large Body Language Models [1.9797215742507548]
本稿では,LBLM(Large Body Language Models)とLBLM-AVA(LBLMアーキテクチャ)を紹介する。このアーキテクチャは,Transformer-XL大言語モデルと並列化拡散モデルを組み合わせて,マルチモーダル入力(テキスト,音声,ビデオ)からヒューマンライクなジェスチャーを生成する。 LBLM-AVAは、Frecheのジェスチャー距離(FGD)を30%削減し、Frecheの知覚距離(Inception Distance)を25%改善し、ライフライクで文脈的に適切なジェスチャーを生成する上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-21T21:48:24Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文参考訳（メタデータ） (2024-06-25T03:50:20Z)
Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文参考訳（メタデータ） (2024-05-10T19:06:41Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
AAMDM: Accelerated Auto-regressive Motion Diffusion Model [10.94879097495769]
本稿では,AAMDM(Accelerated Auto-Regressive Motion Diffusion Model)を紹介する。 AAMDMは、品質、多様性、効率性を同時に達成するために設計された、新しいモーション合成フレームワークである。 AAMDMは動作品質,多様性,実行効率において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-12-02T23:52:21Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。 MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文参考訳（メタデータ） (2023-04-27T17:59:32Z)
Controllable Motion Synthesis and Reconstruction with Autoregressive Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文参考訳（メタデータ） (2023-04-03T08:17:08Z)
Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2022-12-08T03:07:00Z)
Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文参考訳（メタデータ） (2021-08-12T10:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。