論文の概要: Pessimism About Unknown Unknowns Inspires Conservatism
- arxiv url: http://arxiv.org/abs/2006.08753v1
- Date: Mon, 15 Jun 2020 20:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:50:09.692590
- Title: Pessimism About Unknown Unknowns Inspires Conservatism
- Title(参考訳): 未知の未知に関する悲観論は保守主義を刺激する
- Authors: Michael K. Cohen and Marcus Hutter
- Abstract要約: 我々は,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
スカラーパラメータは、考慮された世界モデルのセットのサイズを変更することでエージェントの悲観をチューニングする。
悲観主義は探究を妨げるため、各段階においてエージェントは、人間または既知の安全政策であるかもしれないメンターを軽蔑することができる。
- 参考スコア(独自算出の注目度): 24.085795452335145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If we could define the set of all bad outcomes, we could hard-code an agent
which avoids them; however, in sufficiently complex environments, this is
infeasible. We do not know of any general-purpose approaches in the literature
to avoiding novel failure modes. Motivated by this, we define an idealized
Bayesian reinforcement learner which follows a policy that maximizes the
worst-case expected reward over a set of world-models. We call this agent
pessimistic, since it optimizes assuming the worst case. A scalar parameter
tunes the agent's pessimism by changing the size of the set of world-models
taken into account. Our first main contribution is: given an assumption about
the agent's model class, a sufficiently pessimistic agent does not cause
"unprecedented events" with probability $1-\delta$, whether or not designers
know how to precisely specify those precedents they are concerned with. Since
pessimism discourages exploration, at each timestep, the agent may defer to a
mentor, who may be a human or some known-safe policy we would like to improve.
Our other main contribution is that the agent's policy's value approaches at
least that of the mentor, while the probability of deferring to the mentor goes
to 0. In high-stakes environments, we might like advanced artificial agents to
pursue goals cautiously, which is a non-trivial problem even if the agent were
allowed arbitrary computing power; we present a formal solution.
- Abstract(参考訳): もし、すべての悪い結果のセットを定義できれば、それらを避けるエージェントをハードコードできますが、十分に複雑な環境では、これは実現不可能です。
我々は、新しい失敗モードを避けるために文学における汎用的なアプローチを一切知らない。
これを動機として,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
最悪の場合を想定して最適化するため、我々はこのエージェントを悲観的と呼ぶ。
スカラーパラメータは、考慮される世界モデルの集合のサイズを変更することでエージェントの悲観性を調整する。
エージェントのモデルクラスについて仮定すると、十分に悲観的なエージェントは、1-\delta$の確率で"予期せぬイベント"を引き起こすことはない。
悲観主義は探究を妨げるため、各段階においてエージェントは、改善したい人間や既知の安全政策であるかもしれないメンターを軽蔑することができる。
その他の主な貢献は、エージェントのポリシーの価値が少なくともメンターの方針に近づき、メンターに延期される確率が0に近づいたことです。
高スループット環境では、高度な人工エージェントが目標を慎重に追求することを望んでおり、エージェントが任意の計算能力を許可されたとしても、これは非自明な問題である。
関連論文リスト
- Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。
政策最適化問題において,各形態の騙しをいかに実装できるかを示す。
ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文 参考訳(メタデータ) (2025-01-30T23:41:40Z) - Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting [64.13583792391783]
逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。
IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。
一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
論文 参考訳(メタデータ) (2024-12-15T11:08:58Z) - Safe Exploitative Play with Untrusted Type Beliefs [21.177698937011183]
本研究では,複数のエージェントからなるシステムにおいて,一つのエージェントを制御するという考え方について検討する。
この種の信念は、しばしば過去の行動から学び、誤りである可能性が高い。
リスクと機会のトレードオフを定義し、最適のペイオフに対して得られるペイオフを比較します。
論文 参考訳(メタデータ) (2024-11-12T09:49:16Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Deciding What to Learn: A Rate-Distortion Approach [21.945359614094503]
複雑な環境では、最適ポリシーの合成が不可能になる可能性がある。
我々は,デザイナーの好みをエージェントの定型学習対象に翻訳するプロセスを自動化する。
最適ポリシーの同定におけるトンプソンサンプリングの改善を示す。
論文 参考訳(メタデータ) (2021-01-15T16:22:49Z) - Performance of Bounded-Rational Agents With the Ability to Self-Modify [1.933681537640272]
複雑な環境に埋め込まれたエージェントの自己修飾は避けがたい。
インテリジェントエージェントは、将来のインスタンスが同じ目標に向かって機能するように、ユーティリティ機能の変更を避けるインセンティブを持っている、と論じられている。
この結果は有界な有理性を持つエージェントにはもはや当てはまらない。
論文 参考訳(メタデータ) (2020-11-12T09:25:08Z) - Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent [21.548271801592907]
強化学習者は、高い報酬につながる行動を選択することを学ぶエージェントである。
エージェントが任意の環境において「漸近的に最適」であると保証された場合、真の環境に関する仮定に従うと、エージェントは「破壊される」か「不活性化される」かのいずれかとなる。
我々は,メンティーというエージェントを,無謀な探索ではなく安全な探索をし,メンティーのパフォーマンスに近づくという,控えめな保証をもって提示する。
論文 参考訳(メタデータ) (2020-06-05T10:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。