論文の概要: Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2008.00614v1
- Date: Mon, 3 Aug 2020 02:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:39:48.024930
- Title: Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における情報基盤によるダイナミクスの一般化
- Authors: Xingyu Lu, Kimin Lee, Pieter Abbeel, Stas Tiomkin
- Abstract要約: 本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
- 参考スコア(独自算出の注目度): 90.93035276307239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress of deep reinforcement learning (RL) in
solving sequential decision making problems, RL agents often overfit to
training environments and struggle to adapt to new, unseen environments. This
prevents robust applications of RL in real world situations, where system
dynamics may deviate wildly from the training settings. In this work, our
primary contribution is to propose an information theoretic regularization
objective and an annealing-based optimization method to achieve better
generalization ability in RL agents. We demonstrate the extreme generalization
benefits of our approach in different domains ranging from maze navigation to
robotic tasks; for the first time, we show that agents can generalize to test
parameters more than 10 standard deviations away from the training parameter
distribution. This work provides a principled way to improve generalization in
RL by gradually removing information that is redundant for task-solving; it
opens doors for the systematic study of generalization from training to
extremely different testing settings, focusing on the established connections
between information theory and machine learning.
- Abstract(参考訳): 逐次的な意思決定問題の解決における深層強化学習(RL)の著しい進歩にもかかわらず、RLエージェントはトレーニング環境に過度に適合し、新しい目に見えない環境への適応に苦慮することが多い。
これにより、システムダイナミクスがトレーニング設定から大きく逸脱する現実の状況において、rlの堅牢な適用が防止される。
本研究では,情報論的正規化目標とアニーリングに基づく最適化手法を提案し,rlエージェントの一般化能力の向上に寄与する。
我々は,迷路ナビゲーションからロボットタスクまで,さまざまな領域におけるアプローチの極端な一般化の利点を実証し,エージェントがトレーニングパラメータ分布から10以上の標準偏差をテストできることを示す。
本研究は,タスク解決に欠かせない情報を徐々に取り除き,RLの一般化を改善するための原則的手法を提供し,情報理論と機械学習の確立した関係に着目し,学習から極めて異なるテスト環境への一般化の体系的な研究の扉を開く。
関連論文リスト
- Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Generalization Through the Lens of Learning Dynamics [11.009483845261958]
機械学習(ML)システムは、デプロイ時に正確な予測を得るために、新しい状況に一般化することを学ぶ必要がある。
ディープニューラルネットワークの印象的な一般化性能は、理論家たちに悪影響を与えている。
この論文は、教師付き学習タスクと強化学習タスクの両方において、ディープニューラルネットワークの学習ダイナミクスを研究する。
論文 参考訳(メタデータ) (2022-12-11T00:07:24Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A Survey on Deep Reinforcement Learning-based Approaches for Adaptation
and Generalization [3.307203784120634]
Deep Reinforcement Learning (DRL)は、現実世界の環境で複雑な問題を効率的に解ける知的なエージェントを作ることを目的としている。
本稿では,DRLに基づく適応と一般化に向けた最近の研究動向について述べる。
論文 参考訳(メタデータ) (2022-02-17T04:29:08Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation [32.70482982044965]
本稿では,自動生成軌道データによる標準方針学習手法の強化を目的とした,新たなポリシー対応逆データ拡張手法を提案する。
提案手法の一般化性能を検討するために, 多数のRLタスクについて実験を行った。
その結果,本手法は訓練の多様性に限界があり,最先端の一般化テスト性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2021-06-29T17:21:59Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。