論文の概要: BayRnTune: Adaptive Bayesian Domain Randomization via Strategic
Fine-tuning
- arxiv url: http://arxiv.org/abs/2310.10606v1
- Date: Mon, 16 Oct 2023 17:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 01:28:22.675739
- Title: BayRnTune: Adaptive Bayesian Domain Randomization via Strategic
Fine-tuning
- Title(参考訳): BayRnTune: 戦略的微調整による適応型ベイズドメインランダム化
- Authors: Tianle Huang, Nitish Sontakke, K. Niranjan Kumar, Irfan Essa, Stefanos
Nikolaidis, Dennis W. Hong, Sehoon Ha
- Abstract要約: ドメインランダム化(DR)は、ランダム化されたダイナミクスによるポリシーのトレーニングを必要とする。
BayRnTuneは、これまで学んだポリシーを微調整することによって、学習プロセスの大幅な高速化を目指している。
- 参考スコア(独自算出の注目度): 30.753772054098526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain randomization (DR), which entails training a policy with randomized
dynamics, has proven to be a simple yet effective algorithm for reducing the
gap between simulation and the real world. However, DR often requires careful
tuning of randomization parameters. Methods like Bayesian Domain Randomization
(Bayesian DR) and Active Domain Randomization (Adaptive DR) address this issue
by automating parameter range selection using real-world experience. While
effective, these algorithms often require long computation time, as a new
policy is trained from scratch every iteration. In this work, we propose
Adaptive Bayesian Domain Randomization via Strategic Fine-tuning (BayRnTune),
which inherits the spirit of BayRn but aims to significantly accelerate the
learning processes by fine-tuning from previously learned policy. This idea
leads to a critical question: which previous policy should we use as a prior
during fine-tuning? We investigated four different fine-tuning strategies and
compared them against baseline algorithms in five simulated environments,
ranging from simple benchmark tasks to more complex legged robot environments.
Our analysis demonstrates that our method yields better rewards in the same
amount of timesteps compared to vanilla domain randomization or Bayesian DR.
- Abstract(参考訳): ドメインランダム化(dr)は、ランダム化されたダイナミクスによるポリシーのトレーニングを伴い、シミュレーションと現実世界の間のギャップを減らすための単純かつ効果的なアルゴリズムであることが証明されている。
しかし、drはしばしばランダム化パラメータの注意深いチューニングを必要とする。
Bayesian Domain Randomization (Bayesian DR) や Active Domain Randomization (Adaptive DR) のような手法は、現実世界の経験を使ってパラメータ範囲の選択を自動化することでこの問題に対処する。
有効ではあるが、新しいポリシーはイテレーション毎にスクラッチから訓練されるため、これらのアルゴリズムは長い計算時間を必要とすることが多い。
本研究では,BayRnの精神を継承するストラテジックファインチューニング(BayRnTune)による適応ベイズドメインランダム化を提案する。
このアイデアは、重要な問いに繋がる: 微調整の間、どの以前のポリシーを前もって使うべきか?
4種類の微調整戦略を調査し,単純なベンチマークタスクからより複雑な脚型ロボット環境まで,5つのシミュレーション環境におけるベースラインアルゴリズムと比較した。
解析の結果,バニラ領域のランダム化やベイジアンdrと同等の時間ステップで報奨を得ることができた。
関連論文リスト
- Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization [10.789649934346004]
循環政策蒸留法(CPD)という試料効率の高い手法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
論文 参考訳(メタデータ) (2022-07-29T09:22:53Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Policy Transfer via Kinematic Domain Randomization and Adaptation [22.038635244802798]
パラメータ選択のランダム化が、異なるタイプのドメイン間のポリシー伝達性に与える影響について検討する。
そこで本研究では,シミュレートされた運動パラメータの変動を利用した新しい領域適応アルゴリズムを提案する。
本研究は,5つの異なるターゲット環境において,シミュレーションされた四足歩行ロボットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-11-03T18:09:35Z) - Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-05T07:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。