論文の概要: Distributionally Robust Policy Learning via Adversarial Environment
Generation
- arxiv url: http://arxiv.org/abs/2107.06353v1
- Date: Tue, 13 Jul 2021 19:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 04:26:07.257738
- Title: Distributionally Robust Policy Learning via Adversarial Environment
Generation
- Title(参考訳): 対向環境生成による分布的ロバストな政策学習
- Authors: Allen Z. Ren, Anirudha Majumdar
- Abstract要約: 環境の逆生成を通したDRAGEN-分散ロバストな政策学習を提案する。
遅延変数がコスト予測的かつ現実的な環境変動を捉えた環境に対する生成モデルについて学習する。
我々は,現実的な2D/3Dオブジェクトを把握するためのシミュレーションにおいて,OoD(Out-of-Distribution)の強力な一般化を実証する。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our goal is to train control policies that generalize well to unseen
environments. Inspired by the Distributionally Robust Optimization (DRO)
framework, we propose DRAGEN - Distributionally Robust policy learning via
Adversarial Generation of ENvironments - for iteratively improving robustness
of policies to realistic distribution shifts by generating adversarial
environments. The key idea is to learn a generative model for environments
whose latent variables capture cost-predictive and realistic variations in
environments. We perform DRO with respect to a Wasserstein ball around the
empirical distribution of environments by generating realistic adversarial
environments via gradient ascent on the latent space. We demonstrate strong
Out-of-Distribution (OoD) generalization in simulation for (i) swinging up a
pendulum with onboard vision and (ii) grasping realistic 2D/3D objects.
Grasping experiments on hardware demonstrate better sim2real performance
compared to domain randomization.
- Abstract(参考訳): 我々の目標は、目に見えない環境にうまく一般化する制御ポリシーを訓練することです。
DRAGEN(Distributedally Robust Optimization:分散ロバスト最適化)フレームワークにインスパイアされ、敵環境を生成することにより、現実的な分散シフトに対するポリシーの堅牢性を反復的に改善する。
鍵となるアイデアは、潜在変数がコスト予測的かつ現実的な環境変動をキャプチャする環境生成モデルを学ぶことである。
我々は、潜伏空間上の勾配上昇によって現実的な対向環境を生成することにより、ワッサースタイン球の環境の実証分布に関するDROを行う。
我々は, (i) 振り子をオンボードビジョンで揺らし, (ii) 現実的な2d/3dオブジェクトをつかむシミュレーションにおいて, 強いアウト・オブ・ディストリビューション(ood)一般化を示す。
ハードウェア上でのグラッピング実験は、ドメインランダム化よりも優れたsim2realパフォーマンスを示す。
関連論文リスト
- LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
さらなる改善のためにシミュレーションで現実世界の環境を再構築する。
継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。