論文の概要: Pessimism About Unknown Unknowns Inspires Conservatism
- arxiv url: http://arxiv.org/abs/2006.08753v1
- Date: Mon, 15 Jun 2020 20:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:50:09.692590
- Title: Pessimism About Unknown Unknowns Inspires Conservatism
- Title(参考訳): 未知の未知に関する悲観論は保守主義を刺激する
- Authors: Michael K. Cohen and Marcus Hutter
- Abstract要約: 我々は,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
スカラーパラメータは、考慮された世界モデルのセットのサイズを変更することでエージェントの悲観をチューニングする。
悲観主義は探究を妨げるため、各段階においてエージェントは、人間または既知の安全政策であるかもしれないメンターを軽蔑することができる。
- 参考スコア(独自算出の注目度): 24.085795452335145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If we could define the set of all bad outcomes, we could hard-code an agent
which avoids them; however, in sufficiently complex environments, this is
infeasible. We do not know of any general-purpose approaches in the literature
to avoiding novel failure modes. Motivated by this, we define an idealized
Bayesian reinforcement learner which follows a policy that maximizes the
worst-case expected reward over a set of world-models. We call this agent
pessimistic, since it optimizes assuming the worst case. A scalar parameter
tunes the agent's pessimism by changing the size of the set of world-models
taken into account. Our first main contribution is: given an assumption about
the agent's model class, a sufficiently pessimistic agent does not cause
"unprecedented events" with probability $1-\delta$, whether or not designers
know how to precisely specify those precedents they are concerned with. Since
pessimism discourages exploration, at each timestep, the agent may defer to a
mentor, who may be a human or some known-safe policy we would like to improve.
Our other main contribution is that the agent's policy's value approaches at
least that of the mentor, while the probability of deferring to the mentor goes
to 0. In high-stakes environments, we might like advanced artificial agents to
pursue goals cautiously, which is a non-trivial problem even if the agent were
allowed arbitrary computing power; we present a formal solution.
- Abstract(参考訳): もし、すべての悪い結果のセットを定義できれば、それらを避けるエージェントをハードコードできますが、十分に複雑な環境では、これは実現不可能です。
我々は、新しい失敗モードを避けるために文学における汎用的なアプローチを一切知らない。
これを動機として,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
最悪の場合を想定して最適化するため、我々はこのエージェントを悲観的と呼ぶ。
スカラーパラメータは、考慮される世界モデルの集合のサイズを変更することでエージェントの悲観性を調整する。
エージェントのモデルクラスについて仮定すると、十分に悲観的なエージェントは、1-\delta$の確率で"予期せぬイベント"を引き起こすことはない。
悲観主義は探究を妨げるため、各段階においてエージェントは、改善したい人間や既知の安全政策であるかもしれないメンターを軽蔑することができる。
その他の主な貢献は、エージェントのポリシーの価値が少なくともメンターの方針に近づき、メンターに延期される確率が0に近づいたことです。
高スループット環境では、高度な人工エージェントが目標を慎重に追求することを望んでおり、エージェントが任意の計算能力を許可されたとしても、これは非自明な問題である。
関連論文リスト
- Safe Exploitative Play with Untrusted Type Beliefs [21.177698937011183]
本研究では,複数のエージェントからなるシステムにおいて,一つのエージェントを制御するという考え方について検討する。
この種の信念は、しばしば過去の行動から学び、誤りである可能性が高い。
リスクと機会のトレードオフを定義し、最適のペイオフに対して得られるペイオフを比較します。
論文 参考訳(メタデータ) (2024-11-12T09:49:16Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Deciding What to Learn: A Rate-Distortion Approach [21.945359614094503]
複雑な環境では、最適ポリシーの合成が不可能になる可能性がある。
我々は,デザイナーの好みをエージェントの定型学習対象に翻訳するプロセスを自動化する。
最適ポリシーの同定におけるトンプソンサンプリングの改善を示す。
論文 参考訳(メタデータ) (2021-01-15T16:22:49Z) - Performance of Bounded-Rational Agents With the Ability to Self-Modify [1.933681537640272]
複雑な環境に埋め込まれたエージェントの自己修飾は避けがたい。
インテリジェントエージェントは、将来のインスタンスが同じ目標に向かって機能するように、ユーティリティ機能の変更を避けるインセンティブを持っている、と論じられている。
この結果は有界な有理性を持つエージェントにはもはや当てはまらない。
論文 参考訳(メタデータ) (2020-11-12T09:25:08Z) - Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent [21.548271801592907]
強化学習者は、高い報酬につながる行動を選択することを学ぶエージェントである。
エージェントが任意の環境において「漸近的に最適」であると保証された場合、真の環境に関する仮定に従うと、エージェントは「破壊される」か「不活性化される」かのいずれかとなる。
我々は,メンティーというエージェントを,無謀な探索ではなく安全な探索をし,メンティーのパフォーマンスに近づくという,控えめな保証をもって提示する。
論文 参考訳(メタデータ) (2020-06-05T10:42:29Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。