論文の概要: ACMo: Attribute Controllable Motion Generation
- arxiv url: http://arxiv.org/abs/2503.11038v1
- Date: Fri, 14 Mar 2025 03:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:31.737306
- Title: ACMo: Attribute Controllable Motion Generation
- Title(参考訳): ACMo:属性制御可能なモーション生成
- Authors: Mingjie Wei, Xuemei Xie, Guangming Shi,
- Abstract要約: この研究は属性制御可能なモーション生成アーキテクチャを導入している。
本研究では、属性拡散モデルを用いて、テキストとモーションを分離し、テキストとモーションのパフォーマンスを損なう。
提案手法では,動作プロンプトをスタイリズし,微粒化とユーザフレンドリな属性制御を実現する。
- 参考スコア(独自算出の注目度): 31.603231536312688
- License:
- Abstract: Attributes such as style, fine-grained text, and trajectory are specific conditions for describing motion. However, existing methods often lack precise user control over motion attributes and suffer from limited generalizability to unseen motions. This work introduces an Attribute Controllable Motion generation architecture, to address these challenges via decouple any conditions and control them separately. Firstly, we explored the Attribute Diffusion Model to imporve text-to-motion performance via decouple text and motion learning, as the controllable model relies heavily on the pre-trained model. Then, we introduce Motion Adpater to quickly finetune previously unseen motion patterns. Its motion prompts inputs achieve multimodal text-to-motion generation that captures user-specified styles. Finally, we propose a LLM Planner to bridge the gap between unseen attributes and dataset-specific texts via local knowledage for user-friendly interaction. Our approach introduces the capability for motion prompts for stylize generation, enabling fine-grained and user-friendly attribute control while providing performance comparable to state-of-the-art methods. Project page: https://mjwei3d.github.io/ACMo/
- Abstract(参考訳): スタイル、きめ細かいテキスト、軌跡などの属性は、動きを記述するための特定の条件である。
しかし、既存の手法では、動作属性に対する正確なユーザ制御が欠如しており、目に見えない動作に対する限定的な一般化性に悩まされていることが多い。
この研究は属性制御可能なモーション生成アーキテクチャを導入し、任意の条件を分離し、個別に制御することでこれらの課題に対処する。
まず、制御可能なモデルが事前学習モデルに大きく依存していることから、属性拡散モデルを用いてテキストとモーションのパフォーマンスを分離することを検討した。
次に、これまで見えなかった動きパターンを素早く微調整するために、Motion Adpaterを導入する。
その動作によって入力は、ユーザが指定したスタイルをキャプチャするマルチモーダルテキスト・ツー・モーション生成を実現する。
最後に、ユーザフレンドリーなインタラクションのためのローカルノウドレージを通じて、未確認属性とデータセット固有のテキスト間のギャップを埋めるLLM Plannerを提案する。
提案手法では,動作プロンプトのスタイリング機能を導入し,細粒度でユーザフレンドリな属性制御を実現するとともに,最先端の手法に匹敵する性能を提供する。
プロジェクトページ: https://mjwei3d.github.io/ACMo/
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DartControlは、リアルタイムテキスト駆動モーションコントロールのための拡散ベースの自動回帰モーションプリミティブモデルである。
本モデルは,動作履歴とテキスト入力を併用したコンパクトな動き原始空間を効果的に学習する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。