論文の概要: Generalized Beliefs for Cooperative AI
- arxiv url: http://arxiv.org/abs/2206.12765v1
- Date: Sun, 26 Jun 2022 02:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:20:50.086719
- Title: Generalized Beliefs for Cooperative AI
- Title(参考訳): 協調AIのための一般化された信念
- Authors: Darius Muglich, Luisa Zintgraf, Christian Schroeder de Witt, Shimon
Whiteson, Jakob Foerster
- Abstract要約: 本研究では,トレーニング時に見られない政策の展開に対する信念を維持できる信念学習モデルを提案する。
本稿では,このモデルを用いて,多種多様なポリシーを探索・訓練することで,アドホックなチームプレイを大幅に改善する方法について述べる。
- 参考スコア(独自算出の注目度): 43.04475824715644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play is a common paradigm for constructing solutions in Markov games
that can yield optimal policies in collaborative settings. However, these
policies often adopt highly-specialized conventions that make playing with a
novel partner difficult. To address this, recent approaches rely on encoding
symmetry and convention-awareness into policy training, but these require
strong environmental assumptions and can complicate policy training. We
therefore propose moving the learning of conventions to the belief space.
Specifically, we propose a belief learning model that can maintain beliefs over
rollouts of policies not seen at training time, and can thus decode and adapt
to novel conventions at test time. We show how to leverage this model for both
search and training of a best response over various pools of policies to
greatly improve ad-hoc teamplay. We also show how our setup promotes
explainability and interpretability of nuanced agent conventions.
- Abstract(参考訳): セルフプレイ(Self-play)は、マルコフゲームにおけるソリューション構築のための共通のパラダイムであり、協調的な設定で最適なポリシーを作成できる。
しかし、これらの政策は、しばしば、新しいパートナーとの遊びを困難にする高度に専門化された慣習を採用する。
これに対処するために、近年のアプローチでは、対称性と慣習認識をポリシートレーニングにエンコードするが、これらは強い環境上の仮定を必要とし、ポリシートレーニングを複雑にする可能性がある。
そこで我々は,コンベンションの学習を信念空間に移すことを提案する。
具体的には、トレーニング時に見えないポリシーのロールアウトに対する信念を維持でき、テスト時に新しい規約をデコードして適応できる信念学習モデルを提案する。
我々は、このモデルを様々なポリシーに対するベストレスポンスの検索とトレーニングの両方に活用し、アドホックなチームプレイを大幅に改善する方法を示す。
また,我々の設定がニュアンスエージェント規約の説明可能性と解釈可能性をどのように促進するかを示す。
関連論文リスト
- Social Contract AI: Aligning AI Assistants with Implicit Group Norms [37.68821926786935]
我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。
本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
論文 参考訳(メタデータ) (2023-10-26T20:27:03Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Generating Teammates for Training Robust Ad Hoc Teamwork Agents via
Best-Response Diversity [6.940758395823777]
アドホックチームワーク(Ad hoc teamwork、AHT)は、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。
初期のアプローチは、手作りのチームメイトポリシーの多様なセットで学習者をトレーニングすることで、AHTの課題に対処する。
近年,情報理論の多様性指標を最適化することにより,チームメイトポリシーを用いて学習者の堅牢性を向上させる手法が提案されている。
論文 参考訳(メタデータ) (2022-07-28T14:58:32Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。