論文の概要: An Algorithmic Theory of Metacognition in Minds and Machines
- arxiv url: http://arxiv.org/abs/2111.03745v1
- Date: Fri, 5 Nov 2021 22:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:09:02.569288
- Title: An Algorithmic Theory of Metacognition in Minds and Machines
- Title(参考訳): 心と機械におけるメタ認知のアルゴリズム理論
- Authors: Rylan Schaeffer
- Abstract要約: 強化学習におけるトレードオフをよく理解したメタ認知のアルゴリズム理論を提案する。
深層MACを実装することにより,機械におけるメタ認知の作り方を示す。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans sometimes choose actions that they themselves can identify as
sub-optimal, or wrong, even in the absence of additional information. How is
this possible? We present an algorithmic theory of metacognition based on a
well-understood trade-off in reinforcement learning (RL) between value-based RL
and policy-based RL. To the cognitive (neuro)science community, our theory
answers the outstanding question of why information can be used for error
detection but not for action selection. To the machine learning community, our
proposed theory creates a novel interaction between the Actor and Critic in
Actor-Critic agents and notes a novel connection between RL and Bayesian
Optimization. We call our proposed agent the Metacognitive Actor Critic (MAC).
We conclude with showing how to create metacognition in machines by
implementing a deep MAC and showing that it can detect (some of) its own
suboptimal actions without external information or delay.
- Abstract(参考訳): 人間は、追加の情報がない場合でも、自らが最適でない、あるいは間違っていると認識できる行動を選択できる。
どのようにして可能か?
本稿では,価値に基づくRLとポリシーに基づくRLとの強化学習におけるトレードオフをよく理解したメタ認知のアルゴリズム理論を提案する。
認知的(ニューロ)科学コミュニティに対して,本理論は,なぜ情報をエラー検出に使用できるのか,行動選択に利用できないのかという疑問に答える。
機械学習のコミュニティにとって,提案理論はアクターとアクター・クリティカルエージェントの新たな相互作用を生み出し,RLとベイズ最適化の新たな関係について述べる。
我々は提案するエージェントをメタ認知アクター批判(MAC)と呼ぶ。
我々は、ディープMACを実装することで、マシン内でメタ認知を作成する方法を示し、外部情報や遅延なしに、自身の準最適動作を検出できることを示す。
関連論文リスト
- GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Knowledge-Grounded Reinforcement Learning [86.24523938942814]
我々は、エージェントが外部ガイドラインに従い、独自のポリシーを開発することを学習する、という形式的な定義でKGRL(Knowledge-Grounded RL)の概念を導入する。
本稿では,学習可能な内部方針と外部知識のいずれかに対応する,埋め込み型アテンション機構を備えた新しいアクターモデルを提案する。
我々のKGRLエージェントはより試料効率が高く、一般化可能であることが示され、柔軟に再構成可能な知識埋め込みと解釈可能な振る舞いを持つ。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Automated Machine Learning, Bounded Rationality, and Rational
Metareasoning [62.997667081978825]
有界合理性の観点から、自動機械学習(AutoML)と関連する問題を考察する。
リソース境界の下でアクションを取るには、エージェントがこれらのリソースを最適な方法で利用する方法を反映する必要がある。
論文 参考訳(メタデータ) (2021-09-10T09:10:20Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z) - Interpretable Reinforcement Learning Inspired by Piaget's Theory of
Cognitive Development [1.7778609937758327]
本稿では,思考の言語(LOTH)やスクリプト理論,ピアジェの認知発達理論などの理論が相補的なアプローチを提供するという考えを楽しませる。
提案するフレームワークは,人工知能システムにおいて,人間のような認知を実現するためのステップとみなすことができる。
論文 参考訳(メタデータ) (2021-02-01T00:29:01Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Emergence of Pragmatics from Referential Game between Theory of Mind
Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。
協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T19:37:33Z) - Making Sense of Reinforcement Learning and Probabilistic Inference [15.987913388420667]
強化学習(RL)は、制御問題と統計的推定を組み合わせたものである。
推論の近似として人気の高いRLは、非常に基本的な問題でさえも性能が良くないことを示す。
わずかな修正で、このフレームワークは、確実に性能を発揮できるアルゴリズムを生成できることを示す。
論文 参考訳(メタデータ) (2020-01-03T12:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。