論文の概要: Motion Manifold Flow Primitives for Language-Guided Trajectory Generation
- arxiv url: http://arxiv.org/abs/2407.19681v1
- Date: Mon, 29 Jul 2024 03:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:06:20.353614
- Title: Motion Manifold Flow Primitives for Language-Guided Trajectory Generation
- Title(参考訳): 言語誘導軌道生成のための運動マニフォールドフロープリミティブ
- Authors: Yonghyeon Lee, Byeongho Lee, Seungyeon Kim, Frank C. Park,
- Abstract要約: テキストベーストラジェクトリ生成モデルは、小さなデータセットサイズ、トラジェクトリ空間の高次元性、およびテキスト条件運動分布の固有の複雑さのために、開発が困難である。
本稿では,3つの課題すべてに対処する上で,少数の実演データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
本フレームワークは,テキスト入力に対して,定性的に異なる動作を正確に生成し,既存の手法よりも優れる。
- 参考スコア(独自算出の注目度): 13.422270806078924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing text-based robot trajectory generation models is made particularly difficult by the small dataset size, high dimensionality of the trajectory space, and the inherent complexity of the text-conditional motion distribution. Recent manifold learning-based methods have partially addressed the dimensionality and dataset size issues, but struggle with the complex text-conditional distribution. In this paper we propose a text-based trajectory generation model that attempts to address all three challenges while relying on only a handful of demonstration trajectory data. Our key idea is to leverage recent flow-based models capable of capturing complex conditional distributions, not directly in the high-dimensional trajectory space, but rather in the low-dimensional latent coordinate space of the motion manifold, with deliberately designed regularization terms to ensure smoothness of motions and robustness to text variations. We show that our {\it Motion Manifold Flow Primitive (MMFP)} framework can accurately generate qualitatively distinct motions for a wide range of text inputs, significantly outperforming existing methods.
- Abstract(参考訳): テキストベースのロボット軌道生成モデルの開発は、小さなデータセットのサイズ、軌道空間の高次元性、およびテキスト条件運動分布の本質的な複雑さにより、特に困難である。
近年の多様体学習法は, 次元とデータセットサイズの問題に部分的に対処しているが, 複雑なテキスト条件分布に苦慮している。
本稿では,3つの課題すべてに対処する上で,少数の実演軌跡データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
我々のキーとなる考え方は、高次元軌跡空間ではなく、運動多様体の低次元潜在座標空間において、複雑な条件分布を捉えることができる最近のフローベースモデルを活用することである。
筆者らのMMFPフレームワークは,広範囲のテキスト入力に対して,定性的に異なる動作を正確に生成し,既存の手法よりもはるかに優れていることを示す。
関連論文リスト
- DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。
動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。