論文の概要: Theory of Mind for Deep Reinforcement Learning in Hanabi
- arxiv url: http://arxiv.org/abs/2101.09328v1
- Date: Fri, 22 Jan 2021 20:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 18:42:38.938848
- Title: Theory of Mind for Deep Reinforcement Learning in Hanabi
- Title(参考訳): ハナビにおける深層強化学習の心の理論
- Authors: Andrew Fuchs, Michael Walton, Theresa Chadwick, Doug Lange
- Abstract要約: 花びの効率的な連携戦略を発見するために、強化学習エージェントを心の理論で導入するメカニズムを提案します。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The partially observable card game Hanabi has recently been proposed as a new
AI challenge problem due to its dependence on implicit communication
conventions and apparent necessity of theory of mind reasoning for efficient
play. In this work, we propose a mechanism for imbuing Reinforcement Learning
agents with a theory of mind to discover efficient cooperative strategies in
Hanabi. The primary contributions of this work are threefold: First, a formal
definition of a computationally tractable mechanism for computing hand
probabilities in Hanabi. Second, an extension to conventional Deep
Reinforcement Learning that introduces reasoning over finitely nested theory of
mind belief hierarchies. Finally, an intrinsic reward mechanism enabled by
theory of mind that incentivizes agents to share strategically relevant private
knowledge with their teammates. We demonstrate the utility of our algorithm
against Rainbow, a state-of-the-art Reinforcement Learning agent.
- Abstract(参考訳): 部分的に観察可能なカードゲームであるハナビは、暗黙のコミュニケーション慣行への依存と、効果的なプレーのためのマインド推論の理論の必要性から、新しいAI課題として最近提案されている。
本研究では,強化学習エージェントに心の理論を付与し,効率的な協調戦略を見出すためのメカニズムを提案する。
この研究の主な貢献は次の3つである: 第一に、ハナビにおけるハンド確率の計算可能機構の正式な定義。
第二に、従来の深層強化学習の拡張であり、有限ネストされた心的信念階層の理論を推論する。
最後に、エージェントに戦略的に関連するプライベート知識をチームメイトと共有させるインセンティブを与える心の理論によって実現される本質的な報酬メカニズム。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
関連論文リスト
- Undermining Mental Proof: How AI Can Make Cooperation Harder by Making Thinking Easier [0.030693357740321774]
「心証」とは、観察不可能な心的事実を認定するために観察可能な行動を用いる場合である。
雇用からデートまで、精神的な証明は、人々が自分の心の価値観、意図、知識の状態、その他のプライベートな特徴を確実に伝えることを可能にする。
これらのメカニズムの分析は、人工知能がいつどのように、どのようにして低信頼の協力を困難にできるかを明らかにする。
論文 参考訳(メタデータ) (2024-07-19T16:48:16Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Double A3C: Deep Reinforcement Learning on OpenAI Gym Games [0.0]
強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
論文 参考訳(メタデータ) (2023-03-04T00:06:27Z) - Adversarial Attacks in Cooperative AI [0.0]
多エージェント環境における単エージェント強化学習アルゴリズムは協調の育成には不十分である。
敵機械学習における最近の研究は、モデルは容易に誤った決定を下すことができることを示している。
協調AIは、以前の機械学習研究では研究されなかった新たな弱点を導入する可能性がある。
論文 参考訳(メタデータ) (2021-11-29T07:34:12Z) - An Algorithmic Theory of Metacognition in Minds and Machines [1.52292571922932]
強化学習におけるトレードオフをよく理解したメタ認知のアルゴリズム理論を提案する。
深層MACを実装することにより,機械におけるメタ認知の作り方を示す。
論文 参考訳(メタデータ) (2021-11-05T22:31:09Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Interpretable Reinforcement Learning Inspired by Piaget's Theory of
Cognitive Development [1.7778609937758327]
本稿では,思考の言語(LOTH)やスクリプト理論,ピアジェの認知発達理論などの理論が相補的なアプローチを提供するという考えを楽しませる。
提案するフレームワークは,人工知能システムにおいて,人間のような認知を実現するためのステップとみなすことができる。
論文 参考訳(メタデータ) (2021-02-01T00:29:01Z) - Theory of Mind with Guilt Aversion Facilitates Cooperative Reinforcement
Learning [48.43860606706273]
ギルト嫌悪は、他人を失望させたと信じている人々の実用的損失の経験を誘発する。
ToMAGA (Theory of Mind Agents with Guilt Aversion) と呼ばれる新たな感情強化学習エージェントの構築を目指している。
我々は,我々の信念に基づく罪悪感エージェントが,スタッグハントゲームにおいて協調行動の学習を効率的に行うことができることを示す。
論文 参考訳(メタデータ) (2020-09-16T03:15:46Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Emergence of Pragmatics from Referential Game between Theory of Mind
Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。
協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T19:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。