論文の概要: Domain Randomization via Entropy Maximization
- arxiv url: http://arxiv.org/abs/2311.01885v1
- Date: Fri, 3 Nov 2023 12:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:07:49.878088
- Title: Domain Randomization via Entropy Maximization
- Title(参考訳): エントロピー最大化による領域ランダム化
- Authors: Gabriele Tiboni, Pascal Klink, Jan Peters, Tatiana Tommasi, Carlo
D'Eramo, Georgia Chalvatzaki
- Abstract要約: そこで本研究では,実世界のデータを必要としないシミュレーションにおいて,シミュレーション中の動的分布を自動的に生成する,sim-to-realトランスファーに対処する新しい手法を提案する。
トレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。
我々は、高度に適応的で一般化可能な政策を得る上で、DORAEMONの一貫性のある利点を実証的に検証する。
- 参考スコア(独自算出の注目度): 34.71843027232766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Varying dynamics parameters in simulation is a popular Domain Randomization
(DR) approach for overcoming the reality gap in Reinforcement Learning (RL).
Nevertheless, DR heavily hinges on the choice of the sampling distribution of
the dynamics parameters, since high variability is crucial to regularize the
agent's behavior but notoriously leads to overly conservative policies when
randomizing excessively. In this paper, we propose a novel approach to address
sim-to-real transfer, which automatically shapes dynamics distributions during
training in simulation without requiring real-world data. We introduce DOmain
RAndomization via Entropy MaximizatiON (DORAEMON), a constrained optimization
problem that directly maximizes the entropy of the training distribution while
retaining generalization capabilities. In achieving this, DORAEMON gradually
increases the diversity of sampled dynamics parameters as long as the
probability of success of the current policy is sufficiently high. We
empirically validate the consistent benefits of DORAEMON in obtaining highly
adaptive and generalizable policies, i.e. solving the task at hand across the
widest range of dynamics parameters, as opposed to representative baselines
from the DR literature. Notably, we also demonstrate the Sim2Real applicability
of DORAEMON through its successful zero-shot transfer in a robotic manipulation
setup under unknown real-world parameters.
- Abstract(参考訳): シミュレーションにおけるダイナミクスパラメータの変化は、強化学習(rl)における現実のギャップを克服するためのポピュラードメインランダム化(dr)アプローチである。
それでもDRは、エージェントの振る舞いを規則化する上で高い変動性が不可欠であるが、過度にランダム化すると過度に保守的な政策につながるため、ダイナミックスパラメータのサンプリング分布の選択に強く依存する。
本稿では,実世界のデータを必要とせずにシミュレーションのトレーニング中に動的分布を自動的に形成するsim-to-real転送手法を提案する。
一般化能力を維持しつつトレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。
これを達成するにあたって、ドラモンは、現在の方針の成功確率が十分高い限り、標本力学パラメータの多様性を徐々に増やしていく。
我々はDORAEMONが高度に適応的かつ一般化可能な政策、すなわちDR文献の代表的なベースラインとは対照的に、最も広い範囲の動的パラメータでタスクを解くことにおける一貫した利点を実証的に検証する。
また,DORAEMONのゼロショット転送を成功させて実世界の未知のパラメータ下でのロボット操作で実現したSim2Realの適用性を実証した。
関連論文リスト
- LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
さらなる改善のためにシミュレーションで現実世界の環境を再構築する。
継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - DROPO: Sim-to-Real Transfer with Offline Domain Randomization [12.778412161239466]
DROPOは、安全なsim-to-real転送のための領域ランダム化分布を推定する新しい手法である。
本研究では,DROPOがシミュレーション中の動的パラメータ分布を復元し,非モデル化現象を補償できる分布を求めることを実証する。
論文 参考訳(メタデータ) (2022-01-20T20:03:35Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Policy Transfer via Kinematic Domain Randomization and Adaptation [22.038635244802798]
パラメータ選択のランダム化が、異なるタイプのドメイン間のポリシー伝達性に与える影響について検討する。
そこで本研究では,シミュレートされた運動パラメータの変動を利用した新しい領域適応アルゴリズムを提案する。
本研究は,5つの異なるターゲット環境において,シミュレーションされた四足歩行ロボットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-11-03T18:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。