論文の概要: Robust Domain Randomised Reinforcement Learning through Peer-to-Peer
Distillation
- arxiv url: http://arxiv.org/abs/2012.04839v1
- Date: Wed, 9 Dec 2020 03:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 13:23:52.949506
- Title: Robust Domain Randomised Reinforcement Learning through Peer-to-Peer
Distillation
- Title(参考訳): ピアツーピア蒸留によるロバストドメインランダム化強化学習
- Authors: Chenyang Zhao, Timothy Hospedales
- Abstract要約: 強化学習では、ドメインランダム化は、デプロイ時にドメインシフトに堅牢な、より一般的なポリシーを学ぶための、ますます普及しているテクニックである。
本稿では,複数の作業者がそれぞれ異なる環境に割り当てられ,kullback-leibler 発散に基づく相互正規化を通じて知識を交換する rl のp2pdrl におけるピアツーピアオンライン蒸留戦略を提案する。
P2PDRLはベースラインよりも広いランダム化分布をまたいだ堅牢な学習を可能にし,テスト時の新しい環境へのより堅牢な一般化を可能にした。
- 参考スコア(独自算出の注目度): 3.413891820605725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, domain randomisation is an increasingly popular
technique for learning more general policies that are robust to domain-shifts
at deployment. However, naively aggregating information from randomised domains
may lead to high variance in gradient estimation and unstable learning process.
To address this issue, we present a peer-to-peer online distillation strategy
for RL termed P2PDRL, where multiple workers are each assigned to a different
environment, and exchange knowledge through mutual regularisation based on
Kullback-Leibler divergence. Our experiments on continuous control tasks show
that P2PDRL enables robust learning across a wider randomisation distribution
than baselines, and more robust generalisation to new environments at testing.
- Abstract(参考訳): 強化学習では、ドメインのランダム化は、デプロイ時のドメインシフトに堅牢な、より一般的なポリシーを学ぶための、ますます一般的なテクニックです。
しかし, ランダム化領域からの情報収集は, 勾配推定や不安定な学習過程において高いばらつきをもたらす可能性がある。
本稿では,複数の作業者がそれぞれ異なる環境に割り当てられ,kullback-leibler 発散に基づく相互正規化を通じて知識を交換する rl のp2pdrl におけるピアツーピアオンライン蒸留戦略を提案する。
P2PDRLはベースラインよりも広いランダム化分布をまたいだ堅牢な学習を可能にし,テスト時の新しい環境へのより堅牢な一般化を可能にした。
関連論文リスト
- Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Causal Balancing for Domain Generalization [95.97046583437145]
そこで本研究では,観察されたトレーニング分布の領域特異的なスプリアス相関を低減するために,バランスの取れたミニバッチサンプリング戦略を提案する。
本研究では, 突発性源の同定可能性を保証するとともに, バランスの取れた, 突発性のない分布から, 提案手法が有効にサンプリング可能であることを示す。
論文 参考訳(メタデータ) (2022-06-10T17:59:11Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。
我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。
我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文 参考訳(メタデータ) (2021-12-28T12:12:57Z) - Fishr: Invariant Gradient Variances for Out-of-distribution
Generalization [98.40583494166314]
フィッシャーは、損失関数の勾配の空間における領域不変性を強制する学習スキームである。
フィッシャーはこの損失についてフィッシャー・インフォメーションやヘッセンと密接な関係を示している。
特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-07T08:36:09Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。