論文の概要: Reinforcement Learning Generalization with Surprise Minimization
- arxiv url: http://arxiv.org/abs/2004.12399v2
- Date: Thu, 2 Jul 2020 23:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 12:59:30.834518
- Title: Reinforcement Learning Generalization with Surprise Minimization
- Title(参考訳): 驚き最小化による強化学習一般化
- Authors: Jerry Zikun Chen
- Abstract要約: 深い強化学習アルゴリズムでは、一般化は依然として難しい問題である。
簡単な密度モデルから得られた追加の報酬は、手続き的に生成されたゲーム環境において堅牢性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization remains a challenging problem for deep reinforcement learning
algorithms, which are often trained and tested on the same set of deterministic
game environments. When test environments are unseen and perturbed but the
nature of the task remains the same, generalization gaps can arise. In this
work, we propose and evaluate a surprise minimizing agent on a generalization
benchmark to show an additional reward learned from a simple density model can
show robustness in procedurally generated game environments that provide
constant source of entropy and stochasticity.
- Abstract(参考訳): 一般化は、しばしば同じ決定論的ゲーム環境上で訓練され、テストされる深層強化学習アルゴリズムにとって難しい問題である。
テスト環境が目に見えず摂動的だが、タスクの性質が変わらず、一般化のギャップが生じる。
本研究では,一般化ベンチマークにおけるサプライズ最小化エージェントの提案と評価を行い,エントロピーと確率性が一定である手続き的ゲーム環境において,単純な密度モデルから得られる付加的な報酬がロバスト性を示すことを示す。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Robust Reinforcement Learning with Distributional Risk-averse
formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。
古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文 参考訳(メタデータ) (2022-06-14T13:33:58Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Symbolic Brittleness in Sequence Models: on Systematic Generalization in
Symbolic Mathematics [38.62999063710003]
我々は、テストセットを超えて体系的に一般化する必要があるため、記号的数学的積分の問題を考察する。
本稿では,問題領域の構造と検証器へのアクセスを活かした一般化評価手法を開発する。
本研究では,手動テストスイートと遺伝的アルゴリズムの両方を用いて,ロバスト性,構成性,分布外一般化を実現する上での課題を示す。
論文 参考訳(メタデータ) (2021-09-28T18:50:15Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z) - A stochastic approach to handle knapsack problems in the creation of
ensembles [0.0]
会員の総費用に対する追加の制約の下でアンサンブルの作成について検討する。
このタスクはknapsack問題として定式化することができ、そこではエネルギーはいくつかのアグリゲーションルールによって形成されるアンサンブル精度である。
本稿では,エネルギーを部材の合同確率関数とみなす新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T08:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。