Fugu-MT 論文翻訳(概要): Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization

論文の概要: Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization

arxiv url: http://arxiv.org/abs/2207.14561v1
Date: Fri, 29 Jul 2022 09:22:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-01 13:25:57.880806
Title: Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization
Title（参考訳）: 循環政策蒸留:サンプル効率の良いsim-to-real強化学習とドメインランダム化
Authors: Yuki Kadokawa, Lingwei Zhu, Yoshihisa Tsurumine, Takamitsu Matsubara
Abstract要約: 深層強化学習は、ランダム化された物理モデルとセンサーモデルパラメータを持つ様々なシミュレーションで制御ポリシーを学習し、現実世界に転送できる。循環政策蒸留(CPD)という試料効率の高い方法を提案する。 CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
参考スコア（独自算出の注目度）: 10.789649934346004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning with domain randomization learns a control policy in various simulations with randomized physical and sensor model parameters to become transferable to the real world in a zero-shot setting. However, a huge number of samples are often required to learn an effective policy when the range of randomized parameters is extensive due to the instability of policy updates. To alleviate this problem, we propose a sample-efficient method named Cyclic Policy Distillation (CPD). CPD divides the range of randomized parameters into several small sub-domains and assigns a local policy to each sub-domain. Then, the learning of local policies is performed while {\it cyclically} transitioning the target sub-domain to neighboring sub-domains and exploiting the learned values/policies of the neighbor sub-domains with a monotonic policy-improvement scheme. Finally, all of the learned local policies are distilled into a global policy for sim-to-real transfer. The effectiveness and sample efficiency of CPD are demonstrated through simulations with four tasks (Pendulum from OpenAIGym and Pusher, Swimmer, and HalfCheetah from Mujoco), and a real-robot ball-dispersal task.
Abstract（参考訳）: ドメインランダム化による深層強化学習は、ランダム化された物理モデルとセンサーモデルパラメータを持つ様々なシミュレーションにおいて制御ポリシーを学習し、ゼロショット設定で現実世界に転送できる。しかしながら、ポリシー更新の不安定性のため、ランダム化されたパラメータの範囲が広範囲である場合、効果的なポリシーを学ぶために多くのサンプルが必要となる。この問題を軽減するために,循環政策蒸留法 (CPD) という試料効率の高い手法を提案する。 CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。次に、対象のサブドメインを隣のサブドメインに周期的に移行させ、隣接するサブドメインの学習値や政策を単調なポリシー改善スキームで活用しながら、ローカルポリシーの学習を行う。最後に、学習されたすべての地域政策は、sim-to-real転送のためのグローバルポリシーに蒸留される。 4つのタスク(openaigym と pusher のペンデュラム、mujoco のスイマー、ハーフチーター)と実際のロボットボール分散タスクを用いて、cpdの有効性とサンプル効率を実証した。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7491742648742568]
ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文参考訳（メタデータ） (2025-03-13T23:28:11Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。 DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。 DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文参考訳（メタデータ） (2024-09-01T02:47:50Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
BayRnTune: Adaptive Bayesian Domain Randomization via Strategic Fine-tuning [30.753772054098526]
ドメインランダム化(DR)は、ランダム化されたダイナミクスによるポリシーのトレーニングを必要とする。 BayRnTuneは、これまで学んだポリシーを微調整することによって、学習プロセスの大幅な高速化を目指している。
論文参考訳（メタデータ） (2023-10-16T17:32:23Z)
Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文参考訳（メタデータ） (2023-07-28T05:47:24Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文参考訳（メタデータ） (2022-02-11T18:27:23Z)
Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning [95.00518278458908]
強化学習における3次元回転を表現するための新しいポリシーパラメータ化を提案する。提案したビンガムポリシパラメータ化(BPP)は,ビンガム分布をモデル化し,より良好な回転予測を可能にする。我々は,ローテーションワフバ問題タスクのBPPと,RLBenchの視覚に基づくロボット操作タスクのセットを評価した。
論文参考訳（メタデータ） (2022-02-08T16:09:02Z)
Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。 BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文参考訳（メタデータ） (2020-03-05T07:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。