論文の概要: Theory of Mind for Deep Reinforcement Learning in Hanabi
- arxiv url: http://arxiv.org/abs/2101.09328v1
- Date: Fri, 22 Jan 2021 20:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 18:42:38.938848
- Title: Theory of Mind for Deep Reinforcement Learning in Hanabi
- Title(参考訳): ハナビにおける深層強化学習の心の理論
- Authors: Andrew Fuchs, Michael Walton, Theresa Chadwick, Doug Lange
- Abstract要約: 花びの効率的な連携戦略を発見するために、強化学習エージェントを心の理論で導入するメカニズムを提案します。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The partially observable card game Hanabi has recently been proposed as a new
AI challenge problem due to its dependence on implicit communication
conventions and apparent necessity of theory of mind reasoning for efficient
play. In this work, we propose a mechanism for imbuing Reinforcement Learning
agents with a theory of mind to discover efficient cooperative strategies in
Hanabi. The primary contributions of this work are threefold: First, a formal
definition of a computationally tractable mechanism for computing hand
probabilities in Hanabi. Second, an extension to conventional Deep
Reinforcement Learning that introduces reasoning over finitely nested theory of
mind belief hierarchies. Finally, an intrinsic reward mechanism enabled by
theory of mind that incentivizes agents to share strategically relevant private
knowledge with their teammates. We demonstrate the utility of our algorithm
against Rainbow, a state-of-the-art Reinforcement Learning agent.
- Abstract(参考訳): 部分的に観察可能なカードゲームであるハナビは、暗黙のコミュニケーション慣行への依存と、効果的なプレーのためのマインド推論の理論の必要性から、新しいAI課題として最近提案されている。
本研究では,強化学習エージェントに心の理論を付与し,効率的な協調戦略を見出すためのメカニズムを提案する。
この研究の主な貢献は次の3つである: 第一に、ハナビにおけるハンド確率の計算可能機構の正式な定義。
第二に、従来の深層強化学習の拡張であり、有限ネストされた心的信念階層の理論を推論する。
最後に、エージェントに戦略的に関連するプライベート知識をチームメイトと共有させるインセンティブを与える心の理論によって実現される本質的な報酬メカニズム。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
関連論文リスト
- Discovering Human-Object Interaction Concepts via Self-Compositional
Learning [93.38239238988719]
本稿では,HOI概念発見(HOI Concept Discovery)と呼ばれる包括的HOI理解のための,新しい課題を紹介する。
HOI概念発見のための自己構成学習フレームワーク(SCL)を考案する。
提案手法の有効性を実証するために,いくつかの一般的なHOIデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-27T10:31:55Z) - Adversarial Attacks in Cooperative AI [0.0]
多エージェント環境における単エージェント強化学習アルゴリズムは協調の育成には不十分である。
敵機械学習における最近の研究は、モデルは容易に誤った決定を下すことができることを示している。
協調AIは、以前の機械学習研究では研究されなかった新たな弱点を導入する可能性がある。
論文 参考訳(メタデータ) (2021-11-29T07:34:12Z) - An Algorithmic Theory of Metacognition in Minds and Machines [1.52292571922932]
強化学習におけるトレードオフをよく理解したメタ認知のアルゴリズム理論を提案する。
深層MACを実装することにより,機械におけるメタ認知の作り方を示す。
論文 参考訳(メタデータ) (2021-11-05T22:31:09Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - A Pragmatic Look at Deep Imitation Learning [1.0152838128195467]
GAIL(Generative Adversarial mimicion Learning)アルゴリズムは、スケーラブルな模倣学習手法の開発に拍車をかけた。
本稿では,GAILと関連する模倣学習アルゴリズムを実践的に検討する。
提案手法は,提案手法を統一した実験装置で実装し,自動調整し,競合する手法の公正な評価を行う。
論文 参考訳(メタデータ) (2021-08-04T06:33:10Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Unbiased Self-Play [2.2463154358632473]
本研究では,創発的信念状態表現のための一般最適化フレームワークを提案する。
我々は,多エージェント強化学習とコミュニケーションの共通構成を用いて,各エージェントの知識を活用して,環境の探索範囲を改善する。
最大20のエージェントと市販のRNNによるStarCraft探索タスクを含む数値解析は、最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2021-06-06T02:16:45Z) - Interpretable Reinforcement Learning Inspired by Piaget's Theory of
Cognitive Development [1.7778609937758327]
本稿では,思考の言語(LOTH)やスクリプト理論,ピアジェの認知発達理論などの理論が相補的なアプローチを提供するという考えを楽しませる。
提案するフレームワークは,人工知能システムにおいて,人間のような認知を実現するためのステップとみなすことができる。
論文 参考訳(メタデータ) (2021-02-01T00:29:01Z) - Theory of Mind with Guilt Aversion Facilitates Cooperative Reinforcement
Learning [48.43860606706273]
ギルト嫌悪は、他人を失望させたと信じている人々の実用的損失の経験を誘発する。
ToMAGA (Theory of Mind Agents with Guilt Aversion) と呼ばれる新たな感情強化学習エージェントの構築を目指している。
我々は,我々の信念に基づく罪悪感エージェントが,スタッグハントゲームにおいて協調行動の学習を効率的に行うことができることを示す。
論文 参考訳(メタデータ) (2020-09-16T03:15:46Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Emergence of Pragmatics from Referential Game between Theory of Mind
Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。
協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T19:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。