論文の概要: Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
- arxiv url: http://arxiv.org/abs/2601.21363v3
- Date: Sat, 21 Feb 2026 01:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.000501
- Title: Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
- Title(参考訳): ヒューマノイド制御のための大規模プレトレーニングと効率的なファインタニングのギャップを埋める
- Authors: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang,
- Abstract要約: SAC(Soft Actor-Critic)がヒューマノイド・ロコモーション・ポリシーの大規模事前学習を確実に支援していることが判明した。
SAC-pretrained Policyは、モデルベースの手法を用いて、新しい環境やアウト・オブ・ディストリビューションタスクで微調整できる。
全体としては, 大規模シミュレーションのウォールクロック効率と, 微調整時のモデルベース学習のサンプル効率を両立させる。
- 参考スコア(独自算出の注目度): 18.618486126491334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning. For code and videos, see https://lift-humanoid.github.io
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)はヒューマノイド制御に広く用いられており、PPO(Proximal Policy Optimization)のような政治手法により、大規模並列シミュレーションによる堅牢なトレーニングが可能であり、場合によっては実際のロボットへのゼロショット展開が可能である。
しかし、オンラインアルゴリズムの低いサンプル効率は、新しい環境への安全な適応を制限する。
オフ・ポリティクスRLとモデルベースRLは、サンプル効率が向上しているが、大規模な事前学習とヒューマノイドの効率的な微調整のギャップは依然として残っている。
本稿では,大規模バッチ更新と高アップデート・トゥ・データ(UTD)比を有するオフポリティックなソフトアクター・クライブ(SAC)が,人間型移動ポリシーの大規模事前学習を確実にサポートし,実際のロボットへのゼロショット展開を実現していることを示す。
適応のために、モデルベース手法を用いて、新しい環境やアウト・オブ・ディストリビューションタスクにおいて、これらのSACに制約されたポリシーを微調整できることを実証する。
新しい環境におけるデータ収集は決定論的ポリシーを実行し、確率的探索は物理インフォームド・ワールド・モデルに限られる。
この分離は、改良のための探索的カバレッジを維持しながら、適応中のランダムな探索のリスクを軽減する。
全体としては, 大規模シミュレーションのウォールクロック効率と, 微調整時のモデルベース学習のサンプル効率を両立させる。
コードとビデオについてはhttps://lift-humanoid.github.ioを参照してください。
関連論文リスト
- RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。