論文の概要: Post-Convergence Sim-to-Real Policy Transfer: A Principled Alternative to Cherry-Picking
- arxiv url: http://arxiv.org/abs/2504.15414v1
- Date: Mon, 21 Apr 2025 19:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:34:55.353004
- Title: Post-Convergence Sim-to-Real Policy Transfer: A Principled Alternative to Cherry-Picking
- Title(参考訳): コンバージェンス後のシモン・トゥ・リアル政策移行:チェリー・ピッキングの原則的な代替手段
- Authors: Dylan Khor, Bowen Weng,
- Abstract要約: 本稿では,最短ケースの性能伝達最適化手法を導入することで,コンバージェンス後のsim-to-real転送問題に対処する。
実験は、シミュレーションから実世界の実験室にRLに基づく移動ポリシーを移すことの有効性を実証した。
- 参考スコア(独自算出の注目度): 5.027571997864706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based approaches, particularly reinforcement learning (RL), have become widely used for developing control policies for autonomous agents, such as locomotion policies for legged robots. RL training typically maximizes a predefined reward (or minimizes a corresponding cost/loss) by iteratively optimizing policies within a simulator. Starting from a randomly initialized policy, the empirical expected reward follows a trajectory with an overall increasing trend. While some policies become temporarily stuck in local optima, a well-defined training process generally converges to a reward level with noisy oscillations. However, selecting a policy for real-world deployment is rarely an analytical decision (i.e., simply choosing the one with the highest reward) and is instead often performed through trial and error. To improve sim-to-real transfer, most research focuses on the pre-convergence stage, employing techniques such as domain randomization, multi-fidelity training, adversarial training, and architectural innovations. However, these methods do not eliminate the inevitable convergence trajectory and noisy oscillations of rewards, leading to heuristic policy selection or cherry-picking. This paper addresses the post-convergence sim-to-real transfer problem by introducing a worst-case performance transference optimization approach, formulated as a convex quadratic-constrained linear programming problem. Extensive experiments demonstrate its effectiveness in transferring RL-based locomotion policies from simulation to real-world laboratory tests.
- Abstract(参考訳): 学習に基づくアプローチ、特に強化学習(RL)は、足足ロボットの移動ポリシーのような自律エージェントの制御ポリシーの開発に広く用いられている。
RLトレーニングは通常、シミュレータ内でポリシーを反復的に最適化することで、事前に定義された報酬を最大化(または対応するコスト/損失を最小化する)する。
ランダムに初期化されたポリシーから始めると、経験的な期待報酬は、全体的な増加傾向を伴う軌道に従う。
いくつかの政策は局所的な最適条件で一時的に停止するが、明確に定義された訓練プロセスは一般的にノイズの発振を伴う報酬レベルに収束する。
しかし、実世界の展開のためのポリシーを選択することは、しばしば分析的な決定(つまり、最高の報酬を持つものを選ぶこと)であり、代わりに試行錯誤によってしばしば行われる。
シン・トゥ・リアル・トランスファーを改善するために、ほとんどの研究は、ドメインランダム化、マルチフィデリティ・トレーニング、敵対的トレーニング、アーキテクチャ・イノベーションといった技術を用いて、収束前の段階に焦点を当てている。
しかし、これらの手法は必然的な収束軌道や報酬のノイズ振動を排除せず、ヒューリスティックな政策選択やチェリーピッキングにつながる。
本稿では、凸2次制約線形プログラミング問題として定式化された最悪の性能伝達最適化手法を導入することで、収束後のsim-to-real転送問題に対処する。
大規模な実験は、シミュレーションから実世界の実験室にRLベースの移動ポリシーを移すことの有効性を実証している。
関連論文リスト
- Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7491742648742568]
ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T23:28:11Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z) - Local Policy Optimization for Trajectory-Centric Reinforcement Learning [31.495672846638346]
多くのロボット操作タスクは軌道中心であり、グローバルモデルやポリシーを必要としない。
本稿では、軌道中心モデルに基づく強化学習のための局所ポリシーを生成するために、同時軌道安定化ポリシーと局所安定化ポリシーの最適化手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T15:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。