論文の概要: QuadFM: Foundational Text-Driven Quadruped Motion Dataset for Generation and Control
- arxiv url: http://arxiv.org/abs/2603.24021v1
- Date: Wed, 25 Mar 2026 07:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.183017
- Title: QuadFM: Foundational Text-Driven Quadruped Motion Dataset for Generation and Control
- Title(参考訳): QuadFM: 生成と制御のための基本テキスト駆動型四足歩行データセット
- Authors: Li Gao, Fuzhi Yang, Jianhui Chen, Liu Liu, Yao Zheng, Yang Cai, Ziqiao Li,
- Abstract要約: テキスト・トゥ・モーション・ジェネラル・モーション・ジェネラル・モーション・コントロールのための大規模な超高忠実度データセットQuadFMを紹介した。
QuadFMには、ロコモーション、インタラクティブ、感情表現行動にまたがる11,784のキュレートされたモーションクリップが含まれている。
汎用モーションコントローラとテキスト・ツー・モーション・ジェネレータを共同でトレーニングする統合フレームワークであるGen2Control RLを提案する。
- 参考スコア(独自算出の注目度): 18.78068897227934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in quadrupedal robotics, a critical gap persists in foundational motion resources that holistically integrate diverse locomotion, emotionally expressive behaviors, and rich language semantics-essential for agile, intuitive human-robot interaction. Current quadruped motion datasets are limited to a few mocap primitives (e.g., walk, trot, sit) and lack diverse behaviors with rich language grounding. To bridge this gap, we introduce Quadruped Foundational Motion (QuadFM) , the first large-scale, ultra-high-fidelity dataset designed for text-to-motion generation and general motion control. QuadFM contains 11,784 curated motion clips spanning locomotion, interactive, and emotion-expressive behaviors (e.g., dancing, stretching, peeing), each with three-layer annotation-fine-grained action labels, interaction scenarios, and natural language commands-totaling 35,352 descriptions to support language-conditioned understanding and command execution. We further propose Gen2Control RL, a unified framework that jointly trains a general motion controller and a text-to-motion generator, enabling efficient end-to-end inference on edge hardware. On a real quadruped robot with an NVIDIA Orin, our system achieves real-time motion synthesis (<500 ms latency). Simulation and real-world results show realistic, diverse motions while maintaining robust physical interaction. The dataset will be released at https://github.com/GaoLii/QuadFM.
- Abstract(参考訳): 四足歩行ロボットの大幅な進歩にもかかわらず、基本的な運動資源に重要なギャップが持続し、多様な移動、感情的に表現された振る舞い、そしてアジャイルで直感的な人間とロボットの相互作用に必要なリッチな言語意味論が一体化される。
現在の4つのモーションデータセットは、いくつかのモキャッププリミティブ(例えば、ウォーク、トロット、シット)に制限されており、リッチな言語基盤を持つ多様な振る舞いを欠いている。
このギャップを埋めるために、テキスト・ツー・モーション生成と一般的なモーション制御のために設計された、最初の大規模で超高忠実なデータセットであるQuadFM(QuadFM)を導入する。
QuadFMには、ロコモーション、インタラクティブ、感情表現的な行動(例えば、ダンス、ストレッチ、ピーイング)にまたがる11,784のキュレートされたモーションクリップが含まれており、それぞれに3層にアノテーションを付加したアクションラベル、インタラクションシナリオ、自然言語コマンドで記述された35,352の記述があり、言語条件の理解とコマンドの実行をサポートする。
さらに,汎用モーションコントローラとテキスト・ツー・モーション・ジェネレータを併用した統合フレームワークであるGen2Control RLを提案する。
NVIDIA Orinを搭載した実四足歩行ロボットにおいて,本システムはリアルタイム動作合成(500msレイテンシ)を実現する。
シミュレーションと実世界の結果は、堅牢な物理的相互作用を維持しながら、現実的で多様な動きを示している。
データセットはhttps://github.com/GaoLii/QuadFMでリリースされる。
関連論文リスト
- TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control [62.93681680333618]
TextOpはリアルタイムテキスト駆動型ヒューマノイドモーション生成および制御フレームワークである。
ストリーミング言語コマンドと実行中のオンザフライ命令修正をサポートする。
対話型モーション生成を堅牢な全身制御でブリッジすることで、TextOpは自由形式のインテント表現をアンロックする。
論文 参考訳(メタデータ) (2026-02-07T08:42:11Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [90.39860012099393]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [6.710007544943157]
人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。
MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。
MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文 参考訳(メタデータ) (2023-12-19T22:33:17Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。