論文の概要: SCRIPT: Scalable Diffusion Policy with Multi-stage Training for Language-driven Physics-based Humanoid Control
- arxiv url: http://arxiv.org/abs/2605.22894v2
- Date: Mon, 25 May 2026 05:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:38.043965
- Title: SCRIPT: Scalable Diffusion Policy with Multi-stage Training for Language-driven Physics-based Humanoid Control
- Title(参考訳): SCRIPT:多段階学習による言語駆動型ヒューマノイド制御のための拡張拡散政策
- Authors: Jingyan Zhang, Han Liang, Ruichi Zhang, Bin Li, Juze Zhang, Xin Chen, Jingya Wang, Lan Xu, Jingyi Yu,
- Abstract要約: SCRIPTは、言語駆動の物理に基づくヒューマノイド制御のための多段階トレーニングフレームワークを備えたスケーラブルな拡散ポリシーである。
SCRIPTの中核はJAST-DiT(Joint Action-State-Text Diffusion Transformer)であり、アクション、物理状態、テキストを専用トークンストリームとして表現している。
自己回帰制御を安定させるために,近年の密集した文脈を保存し,長期的歴史から疎開したサンプルを抽出する非線形履歴条件付け機構を導入する。
- 参考スコア(独自算出の注目度): 72.5651722107621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling physics-based humanoids from natural-language instructions is a critical step toward general-purpose embodied agents. However, existing methods remain constrained by a tension between semantic expressiveness and physical feasibility, often failing to jointly achieve faithful instruction following, high-quality motion, and stable long-horizon control. We propose SCRIPT, a scalable diffusion policy with a multi-stage training framework for language-driven physics-based humanoid control. The core of SCRIPT is a Joint Action-State-Text Diffusion Transformer (JAST-DiT), which represents actions, physical states, and text as dedicated token streams and couples them through joint attention, enabling direct interaction between language semantics and control dynamics. To stabilize autoregressive control, we introduce a nonlinear history conditioning mechanism, which preserves the dense recent context and samples increasingly sparse cues from long-term history. Beyond supervised imitation pre-training, we propose a post-training stage, further improving the performance using Reinforcement Learning with Hybrid Rewards (RLHR). By injecting learnable noise into the flow-sampling process, RLHR effectively improves motion quality and instruction following within closed-loop simulations using hybrid physical feedback and text rewards. Quantitative evaluations demonstrate that SCRIPT outperforms prior state-of-the-art methods, with gains across text alignment, motion quality, and physical realism metrics. Furthermore, scaling studies on the 1200-hour MotionMillion dataset demonstrate consistent performance gains with model scaling, highlighting SCRIPT's robust scalability for large-scale pre-training. Our code will be publicly available for future research.
- Abstract(参考訳): 物理に基づくヒューマノイドを自然言語命令から制御することは、汎用的なエンボディエージェントへの重要なステップである。
しかし、既存の手法は意味表現性と物理的実現性の間の緊張によって制約され、しばしば忠実な指示、高品質な動作、安定した長距離制御を共同で達成することができない。
言語駆動型物理に基づくヒューマノイド制御のための多段階トレーニングフレームワークであるSCRIPTを提案する。
SCRIPTの中核はJAST-DiT(Joint Action-State-Text Diffusion Transformer)であり、アクション、物理状態、テキストを専用のトークンストリームとして表現し、それらを共同で注意することで、言語意味論と制御力学の直接的な相互作用を可能にする。
自己回帰制御を安定させるために,近年の密集した文脈を保存し,長期的歴史から疎遠化していく非線形履歴条件付け機構を導入する。
教師付き模擬前訓練の他に,RLHR(Reinforcement Learning with Hybrid Rewards)を用いた強化学習による後訓練のステージを提案する。
フローサンプリングプロセスに学習可能なノイズを注入することにより、RLHRは、ハイブリッド物理フィードバックとテキスト報酬を用いてクローズドループシミュレーションにおける動作品質と命令を効果的に改善する。
定量的評価により、SCRIPTは従来の最先端手法よりも優れており、テキストアライメント、モーションクオリティ、物理リアリズムの指標が向上している。
さらに、1200時間のMotionMillionデータセットのスケーリング研究は、モデルスケーリングによる一貫したパフォーマンス向上を示し、SCRIPTの大規模事前トレーニングに対する堅牢なスケーラビリティを強調している。
私たちのコードは、将来の研究のために公開されます。
関連論文リスト
- LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning [90.86828952599147]
提案するLaST-R1(LaST-R1)は,「最近の推論・行動」政策を活用するために設計された,新しい強化学習フレームワークである。
LaST-R1 は LIBERO ベンチマークで 99.9% の平均成功率を達成した。
実世界の展開では、LaST-R1はSOTAが監督する微調整アプローチよりも22.5%平均的に改善されている。
論文 参考訳(メタデータ) (2026-04-30T17:59:52Z) - CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation [4.726851899243877]
LG-Flow Policyは、連続的な潜在アクション空間でフローマッチングを実行する軌道レベルの模倣学習フレームワークである。
動作シーケンスを時間的に規則化された潜在軌道に符号化し、明示的な潜在空間の流れを学習することにより、提案手法は低レベル制御ノイズからグローバルな運動構造を分離する。
論文 参考訳(メタデータ) (2026-01-30T15:36:43Z) - No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts [16.05508249584636]
本稿では,テキストプロンプトのみを用いて事前学習した動き拡散モデルを微調整するポストトレーニングフレームワークを提案する。
私たちのアプローチは、動き適応のためのフレキシブルで、データ効率が高く、プライバシ保護のソリューションです。
論文 参考訳(メタデータ) (2025-10-08T13:12:10Z) - RL from Physical Feedback: Aligning Large Motion Models with Humanoid Control [32.37239524019001]
本稿では,テキスト駆動型人間動作をヒューマノイドロボットの実行可能な動作に変換することに焦点を当てた。
既存のテキスト・トゥ・モーション生成手法は、実世界の展開には適さない運動を運動的にも身体的にも生成する。
本稿では,物理認識型動作評価とテキスト条件付き動作生成を統合した新しいフレームワークである物理フィードバックからの強化学習を提案する。
論文 参考訳(メタデータ) (2025-06-15T08:39:49Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。