論文の概要: Theory of Mind for Deep Reinforcement Learning in Hanabi
- arxiv url: http://arxiv.org/abs/2101.09328v1
- Date: Fri, 22 Jan 2021 20:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 18:42:38.938848
- Title: Theory of Mind for Deep Reinforcement Learning in Hanabi
- Title(参考訳): ハナビにおける深層強化学習の心の理論
- Authors: Andrew Fuchs, Michael Walton, Theresa Chadwick, Doug Lange
- Abstract要約: 花びの効率的な連携戦略を発見するために、強化学習エージェントを心の理論で導入するメカニズムを提案します。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The partially observable card game Hanabi has recently been proposed as a new
AI challenge problem due to its dependence on implicit communication
conventions and apparent necessity of theory of mind reasoning for efficient
play. In this work, we propose a mechanism for imbuing Reinforcement Learning
agents with a theory of mind to discover efficient cooperative strategies in
Hanabi. The primary contributions of this work are threefold: First, a formal
definition of a computationally tractable mechanism for computing hand
probabilities in Hanabi. Second, an extension to conventional Deep
Reinforcement Learning that introduces reasoning over finitely nested theory of
mind belief hierarchies. Finally, an intrinsic reward mechanism enabled by
theory of mind that incentivizes agents to share strategically relevant private
knowledge with their teammates. We demonstrate the utility of our algorithm
against Rainbow, a state-of-the-art Reinforcement Learning agent.
- Abstract(参考訳): 部分的に観察可能なカードゲームであるハナビは、暗黙のコミュニケーション慣行への依存と、効果的なプレーのためのマインド推論の理論の必要性から、新しいAI課題として最近提案されている。
本研究では,強化学習エージェントに心の理論を付与し,効率的な協調戦略を見出すためのメカニズムを提案する。
この研究の主な貢献は次の3つである: 第一に、ハナビにおけるハンド確率の計算可能機構の正式な定義。
第二に、従来の深層強化学習の拡張であり、有限ネストされた心的信念階層の理論を推論する。
最後に、エージェントに戦略的に関連するプライベート知識をチームメイトと共有させるインセンティブを与える心の理論によって実現される本質的な報酬メカニズム。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
- 全文 参考訳へのリンク
関連論文リスト
- Discovering Human-Object Interaction Concepts via Self-Compositional
Learning [93.38239238988719]
本稿では,HOI概念発見(HOI Concept Discovery)と呼ばれる包括的HOI理解のための,新しい課題を紹介する。
HOI概念発見のための自己構成学習フレームワーク(SCL)を考案する。
提案手法の有効性を実証するために,いくつかの一般的なHOIデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-27T10:31:55Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。
我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文 参考訳(メタデータ) (2021-12-26T18:06:44Z) - Adversarial Attacks in Cooperative AI [0.0]
多エージェント環境における単エージェント強化学習アルゴリズムは協調の育成には不十分である。
敵機械学習における最近の研究は、モデルは容易に誤った決定を下すことができることを示している。
協調AIは、以前の機械学習研究では研究されなかった新たな弱点を導入する可能性がある。
論文 参考訳(メタデータ) (2021-11-29T07:34:12Z) - An Algorithmic Theory of Metacognition in Minds and Machines [1.52292571922932]
強化学習におけるトレードオフをよく理解したメタ認知のアルゴリズム理論を提案する。
深層MACを実装することにより,機械におけるメタ認知の作り方を示す。
論文 参考訳(メタデータ) (2021-11-05T22:31:09Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - A Pragmatic Look at Deep Imitation Learning [1.0152838128195467]
GAIL(Generative Adversarial mimicion Learning)アルゴリズムは、スケーラブルな模倣学習手法の開発に拍車をかけた。
本稿では,GAILと関連する模倣学習アルゴリズムを実践的に検討する。
提案手法は,提案手法を統一した実験装置で実装し,自動調整し,競合する手法の公正な評価を行う。
論文 参考訳(メタデータ) (2021-08-04T06:33:10Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Unbiased Self-Play [2.2463154358632473]
本研究では,創発的信念状態表現のための一般最適化フレームワークを提案する。
我々は,多エージェント強化学習とコミュニケーションの共通構成を用いて,各エージェントの知識を活用して,環境の探索範囲を改善する。
最大20のエージェントと市販のRNNによるStarCraft探索タスクを含む数値解析は、最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2021-06-06T02:16:45Z) - Interpretable Reinforcement Learning Inspired by Piaget's Theory of
Cognitive Development [1.7778609937758327]
本稿では,思考の言語(LOTH)やスクリプト理論,ピアジェの認知発達理論などの理論が相補的なアプローチを提供するという考えを楽しませる。
提案するフレームワークは,人工知能システムにおいて,人間のような認知を実現するためのステップとみなすことができる。
論文 参考訳(メタデータ) (2021-02-01T00:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。