論文の概要: Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2407.10528v1
- Date: Mon, 15 Jul 2024 08:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:50:53.370250
- Title: Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation
- Title(参考訳): テキスト・ツー・モーション生成のための局所動作誘導運動拡散モデル
- Authors: Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Runyi Yu, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen,
- Abstract要約: 既存の動き生成法は主に大域運動の直接合成に焦点を当てている。
本研究では,局所動作を微粒化制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型動き拡散モデルを提案する。
本手法は,様々な局所動作と連続誘導重み調整をシームレスに組み合わせる柔軟性を提供する。
- 参考スコア(独自算出の注目度): 52.87672306545577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation requires not only grounding local actions in language but also seamlessly blending these individual actions to synthesize diverse and realistic global motions. However, existing motion generation methods primarily focus on the direct synthesis of global motions while neglecting the importance of generating and controlling local actions. In this paper, we propose the local action-guided motion diffusion model, which facilitates global motion generation by utilizing local actions as fine-grained control signals. Specifically, we provide an automated method for reference local action sampling and leverage graph attention networks to assess the guiding weight of each local action in the overall motion synthesis. During the diffusion process for synthesizing global motion, we calculate the local-action gradient to provide conditional guidance. This local-to-global paradigm reduces the complexity associated with direct global motion generation and promotes motion diversity via sampling diverse actions as conditions. Extensive experiments on two human motion datasets, i.e., HumanML3D and KIT, demonstrate the effectiveness of our method. Furthermore, our method provides flexibility in seamlessly combining various local actions and continuous guiding weight adjustment, accommodating diverse user preferences, which may hold potential significance for the community. The project page is available at https://jpthu17.github.io/GuidedMotion-project/.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは、言語における局所的なアクションを基礎づけるだけでなく、これらの個々のアクションをシームレスにブレンドして、多様で現実的なグローバルな動きを合成する必要がある。
しかし、既存の動き生成法は、局所的な行動の生成と制御の重要性を無視しながら、大域的な動きの直接合成に重点を置いている。
本稿では,局所動作をきめ細かい制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型運動拡散モデルを提案する。
具体的には,局所的な動作のサンプリングを自動で参照し,グラフアテンションネットワークを利用して各局所的な動作のガイドウェイトを全体の動作合成で評価する。
グローバルな動きを合成する拡散過程において, 局所作用勾配を計算し, 条件付きガイダンスを提供する。
この局所的・グローバル的パラダイムは、直接的グローバルなモーション生成に関連する複雑さを低減し、多様な動作を条件としてサンプリングすることで、動きの多様性を促進する。
人間の動作データセットであるHumanML3DとKITの大規模な実験により,本手法の有効性が示された。
さらに,本手法は,様々な局所行動のシームレスな組み合わせや,多様なユーザの嗜好を調整し,コミュニティにとって潜在的に重要なものとなるような,継続的なガイドウェイト調整の柔軟性を提供する。
プロジェクトページはhttps://jpthu17.github.io/GuidedMotion-project/で公開されている。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文 参考訳(メタデータ) (2024-10-04T06:58:45Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Guided Motion Diffusion for Controllable Human Motion Synthesis [18.660523853430497]
本稿では,空間的制約を運動生成プロセスに組み込む手法として,誘導運動拡散(GMD)を提案する。
具体的には、空間情報と局所的なポーズの一貫性を高めるために、動きの表現を操作する効果的な特徴投影方式を提案する。
本実験はGMDの開発を正当化し,テキストベースモーション生成における最先端手法を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-21T21:54:31Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z) - SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion
Prediction [10.496276090281825]
本稿では,ソーシャル・アウェア・モーション・トランスフォーマー(SoMoFormer)を提案する。
SoMoFormerは、変位軌道空間のサブシーケンスから運動特徴を抽出し、各個人に対する局所的およびグローバルなポーズダイナミクスを学習する。
さらに,SoMoFormerに新たなソーシャル・アウェア・アテンション・アテンション・メカニズムを考案し,動的表現をさらに最適化し,相互依存を同時に捉える。
論文 参考訳(メタデータ) (2022-08-19T08:57:34Z) - Global-local Motion Transformer for Unsupervised Skeleton-based Action
Learning [23.051184131833292]
骨格運動系列の教師なし学習のための新しいトランスフォーマーモデルを提案する。
提案モデルでは, 関節の局所力学を学習し, 動き列から大域的文脈を捉える。
論文 参考訳(メタデータ) (2022-07-13T10:18:07Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。