論文の概要: Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent
- arxiv url: http://arxiv.org/abs/2006.03357v2
- Date: Wed, 26 May 2021 15:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:50:41.379452
- Title: Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent
- Title(参考訳): 好奇心は猫と漸近的に最適な薬を殺傷または無力化した
- Authors: Michael K. Cohen and Elliot Catt and Marcus Hutter
- Abstract要約: 強化学習者は、高い報酬につながる行動を選択することを学ぶエージェントである。
エージェントが任意の環境において「漸近的に最適」であると保証された場合、真の環境に関する仮定に従うと、エージェントは「破壊される」か「不活性化される」かのいずれかとなる。
我々は,メンティーというエージェントを,無謀な探索ではなく安全な探索をし,メンティーのパフォーマンスに近づくという,控えめな保証をもって提示する。
- 参考スコア(独自算出の注目度): 21.548271801592907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learners are agents that learn to pick actions that lead to
high reward. Ideally, the value of a reinforcement learner's policy approaches
optimality--where the optimal informed policy is the one which maximizes
reward. Unfortunately, we show that if an agent is guaranteed to be
"asymptotically optimal" in any (stochastically computable) environment, then
subject to an assumption about the true environment, this agent will be either
"destroyed" or "incapacitated" with probability 1. Much work in reinforcement
learning uses an ergodicity assumption to avoid this problem. Often, doing
theoretical research under simplifying assumptions prepares us to provide
practical solutions even in the absence of those assumptions, but the
ergodicity assumption in reinforcement learning may have led us entirely astray
in preparing safe and effective exploration strategies for agents in dangerous
environments. Rather than assuming away the problem, we present an agent,
Mentee, with the modest guarantee of approaching the performance of a mentor,
doing safe exploration instead of reckless exploration. Critically, Mentee's
exploration probability depends on the expected information gain from
exploring. In a simple non-ergodic environment with a weak mentor, we find
Mentee outperforms existing asymptotically optimal agents and its mentor.
- Abstract(参考訳): 強化学習者は、高い報酬につながる行動を選ぶことを学ぶエージェントです。
理想的には、強化学習者の政策の価値は最適性に近づき、最適情報政策は報酬を最大化するものである。
残念なことに、もしエージェントが任意の(統計的に計算可能な)環境において「漸近的に最適」であると保証され、真の環境に関する仮定に従うと、このエージェントは確率1で「破壊」されるか「機能不全」となる。
強化学習における多くの仕事は、この問題を避けるためにエルゴディシティの仮定を用いる。
仮定を単純化した理論的な研究を行うことで、仮定がなくても実用的な解決策を提供することができるが、強化学習における人間性仮定は、危険な環境下でのエージェントの安全かつ効果的な探索戦略の策定に全力を注いでいる可能性がある。
問題を想定する代わりに、エージェントであるmenteeに、メンターのパフォーマンスに近づくという控えめな保証を与え、無謀な探索ではなく安全な探索を行います。
批判的に、メンティーの探索確率は探索から得られる期待情報に依存する。
弱いメンターを持つ単純な非エルゴード環境では、メンティーは既存の漸近的に最適なエージェントとそのメンターよりも優れています。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文 参考訳(メタデータ) (2024-07-16T21:28:03Z) - An agent design with goal reaching guarantees for enhancement of learning [40.76517286989928]
強化学習はマルコフ決定過程における累積報酬の最大化の問題に関係している。
我々は、かなり柔軟で、批判者を構成する限り、事実上あらゆるエージェントを増強するために使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-28T12:27:36Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Pessimism About Unknown Unknowns Inspires Conservatism [24.085795452335145]
我々は,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
スカラーパラメータは、考慮された世界モデルのセットのサイズを変更することでエージェントの悲観をチューニングする。
悲観主義は探究を妨げるため、各段階においてエージェントは、人間または既知の安全政策であるかもしれないメンターを軽蔑することができる。
論文 参考訳(メタデータ) (2020-06-15T20:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。