論文の概要: Bridging the Gap: Enabling Soft Actor Critic for High Performance Legged Locomotion
- arxiv url: http://arxiv.org/abs/2605.24975v1
- Date: Sun, 24 May 2026 10:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.624064
- Title: Bridging the Gap: Enabling Soft Actor Critic for High Performance Legged Locomotion
- Title(参考訳): ギャップのブリジング:高性能レッグ式ロコモーションのためのソフトアクター批評の展開
- Authors: Gianluca Sabatini, Chenhao Li, Marco Hutter,
- Abstract要約: Soft Actor-Criticは、過去の経験を再利用できる非政治的なアルゴリズムである。
これは、シミュレーションと実際のロボットのオンライン学習の両方で同じアルゴリズムを使用できる、擬似現実移動の自然な候補である。
この研究は、このギャップの根本原因を特定し、SACが安定して大規模にトレーニングできるような、ターゲットとなる修正を導入する。
- 参考スコア(独自算出の注目度): 14.693602704450528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) has become the de facto standard for training legged robots, thanks to its robustness and scalability in massively parallel simulation environments like IsaacLab. However, its on-policy nature makes it inherently sample-inefficient, preventing its use for continuous adaptation and fine-tuning on real hardware. Soft Actor-Critic (SAC), by contrast, is an off-policy algorithm that can reuse past experience, making it a natural candidate for sim-to-real transfer workflows where the same algorithm can be used both in simulation and for online learning on the real robot. Despite these advantages, SAC has consistently failed to match PPO's empirical performance in massively parallel training settings. This work identifies the root causes of this gap and introduces targeted modifications, covering policy initialization, timeout-aware critic targets, and multi-step return estimation, that enable SAC to train stably at scale. Evaluated across multiple legged robot platforms and diverse locomotion tasks, our approach closes the performance gap with PPO entirely.
- Abstract(参考訳): 近接ポリシー最適化(PPO)は、IsaacLabのような非常に並列なシミュレーション環境における堅牢性とスケーラビリティのおかげで、脚のあるロボットのトレーニングのデファクトスタンダードになっている。
しかし、その実効性は本質的にサンプル非効率であり、連続的な適応や実際のハードウェアの微調整には使用されない。
対照的に、Soft Actor-Critic(SAC)は、過去の経験を再利用できる非政治的なアルゴリズムであり、シミュレーションと実際のロボットでのオンライン学習の両方で同じアルゴリズムが使用できるシミュレート・トゥ・リアル・トランスファーワークフローの自然な候補となる。
これらの利点にもかかわらず、SACは極めて並列な訓練環境でのPPOの実証的な性能と一貫して一致しなかった。
本研究は、このギャップの根本原因を特定し、政策初期化、タイムアウト対応の批判目標、SACが大規模に安定して訓練できるマルチステップリターン推定など、目標とする修正を導入する。
複数の脚を持つロボットプラットフォームと多様な移動タスクにまたがって評価を行い、本手法はPPOによるパフォーマンスギャップを完全に埋める。
関連論文リスト
- Actor-Critic with Active Importance Sampling [61.41272490044518]
本稿では,Active-Importance-Sampling Actor-Critic (AISAC)アルゴリズムを提案する。
AISACはActor-Criticフレームワークの拡張であり、ポリシー勾配推定のばらつきを低減する。
実験では、標準的なアクター・クライブ法と比較して学習速度、サンプル効率、トレーニングが改善された。
論文 参考訳(メタデータ) (2026-05-08T01:21:32Z) - FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control [55.38832429564216]
強化学習(Reinforcement Learning, RL)は、専門家によるデモンストレーションが利用できない場合のロボット制御における中核的なアプローチである。
我々は,Soft Actor-Critic上に構築された高速で安定なオフポリチィRLアルゴリズムであるFlashSACを提案する。
10のシミュレータで60以上のタスクをこなし、FlashSACは最終的なパフォーマンスとトレーニング効率の両方において、PPOと強力なオフポリシーベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-06T09:03:41Z) - Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control [18.618486126491334]
SAC(Soft Actor-Critic)がヒューマノイド・ロコモーション・ポリシーの大規模事前学習を確実に支援していることが判明した。
SAC-pretrained Policyは、モデルベースの手法を用いて、新しい環境やアウト・オブ・ディストリビューションタスクで微調整できる。
全体としては, 大規模シミュレーションのウォールクロック効率と, 微調整時のモデルベース学習のサンプル効率を両立させる。
論文 参考訳(メタデータ) (2026-01-29T07:43:24Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
デプロイ後の段階において、RLポリシーを継続的に洗練する、生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
LoopSRはトランスフォーマーベースのエンコーダを使用して、現実世界の軌道を潜在空間にマッピングする。
オートエンコーダアーキテクチャとコントラスト学習手法を採用し、実世界のダイナミクスの特徴抽出を強化する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。
勾配がreパラメータ化トリックによって計算できる分布に限られる。
シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。
実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T04:30:51Z) - Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint [8.071506311915396]
強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
本稿では,学習可能な状態依存スラック変数を用いて実装を改善する。
論文 参考訳(メタデータ) (2023-03-08T03:32:50Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。