論文の概要: Motion Manifold Flow Primitives for Language-Guided Trajectory Generation
- arxiv url: http://arxiv.org/abs/2407.19681v2
- Date: Sat, 12 Oct 2024 05:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 14:27:29.666295
- Title: Motion Manifold Flow Primitives for Language-Guided Trajectory Generation
- Title(参考訳): 言語誘導軌道生成のための運動マニフォールドフロープリミティブ
- Authors: Yonghyeon Lee, Byeongho Lee, Seungyeon Kim, Frank C. Park,
- Abstract要約: テキストベーストラジェクトリ生成モデルは、データセットのサイズが小さく、トラジェクトリ空間の高次元性、およびテキスト条件運動分布の固有の複雑さのため、開発が困難である。
本稿では,3つの課題すべてに対処する上で,少数の実演データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
- 参考スコア(独自算出の注目度): 13.422270806078924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing text-based robot trajectory generation models is made particularly difficult by the small dataset size, high dimensionality of the trajectory space, and the inherent complexity of the text-conditional motion distribution. Recent manifold learning-based methods have partially addressed the dimensionality and dataset size issues, but struggle with the complex text-conditional distribution. In this paper we propose a text-based trajectory generation model that attempts to address all three challenges while relying on only a handful of demonstration trajectory data. Our key idea is to leverage recent flow-based models capable of capturing complex conditional distributions, not directly in the high-dimensional trajectory space, but rather in the low-dimensional latent coordinate space of the motion manifold, with deliberately designed regularization terms to ensure smoothness of motions and robustness to text variations. We show that our Motion Manifold Flow Primitive (MMFP) framework can accurately generate qualitatively distinct motions for a wide range of text inputs, significantly outperforming existing methods.
- Abstract(参考訳): テキストベースのロボット軌道生成モデルの開発は、小さなデータセットのサイズ、軌道空間の高次元性、およびテキスト条件運動分布の本質的な複雑さにより、特に困難である。
近年の多様体学習法は, 次元とデータセットサイズの問題に部分的に対処しているが, 複雑なテキスト条件分布に苦慮している。
本稿では,3つの課題すべてに対処する上で,少数の実演軌跡データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
我々のキーとなる考え方は、高次元軌跡空間ではなく、運動多様体の低次元潜在座標空間において、複雑な条件分布を捉えることができる最近のフローベースモデルを活用することである。
動作マニフォールドフロープリミティブ(MMFP)フレームワークは,幅広いテキスト入力に対して,定性的に異なる動作を正確に生成し,既存の手法を著しく上回ることを示す。
関連論文リスト
- Generative Trajectory Stitching through Diffusion Composition [29.997765496994457]
CompDiffuserは、これまで見てきたタスクから短い軌跡を合成的に縫い合わせることで、新しいタスクを解決できる新しい生成的アプローチである。
我々は,さまざまな環境サイズ,エージェント状態次元,軌道タイプ,データ品質のトレーニングなど,さまざまな課題のベンチマークタスクについて実験を行い,CompDiffuserが既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-07T05:22:52Z) - One Fits All: General Mobility Trajectory Modeling via Masked Conditional Diffusion [11.373845190033297]
軌道データは、ネットワーク最適化から都市計画まで、多くのアプリケーションにおいて重要な役割を果たす。
既存のトラジェクトリデータの研究はタスク固有であり、それらの適用性は、生成、回復、予測など、トレーニングされた特定のタスクに限られる。
我々は条件拡散(GenMove)による一般的な軌道モデリングフレームワークを提案する。
我々のモデルは最先端のベースラインを著しく上回り、最高性能は生成タスクの13%以上である。
論文 参考訳(メタデータ) (2025-01-23T03:13:45Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。
動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - STGlow: A Flow-based Generative Framework with Dual Graphormer for
Pedestrian Trajectory Prediction [22.553356096143734]
歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。
本手法は,動作の正確なログライクな振る舞いを最適化することにより,基礎となるデータ分布をより正確にモデル化することができる。
いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-21T07:29:24Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。