論文の概要: On the Impossibility of Learning to Cooperate with Adaptive Partner
Strategies in Repeated Games
- arxiv url: http://arxiv.org/abs/2206.10614v1
- Date: Mon, 20 Jun 2022 16:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:51:16.348441
- Title: On the Impossibility of Learning to Cooperate with Adaptive Partner
Strategies in Repeated Games
- Title(参考訳): 反復ゲームにおける適応的パートナー戦略と協調する学習の不可能性について
- Authors: Robert Loftin and Frans A. Oliehoek
- Abstract要約: 繰り返し行列ゲームにおいて,全ての適応的パートナーと協調する学習アルゴリズムが確実に学習できないことを示す。
次に、適応的パートナーが我々の行動に合理的に適応するという考えを捉えた、潜在的に代替的な仮定について議論する。
- 参考スコア(独自算出の注目度): 13.374518263328763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to cooperate with other agents is challenging when those agents also
possess the ability to adapt to our own behavior. Practical and theoretical
approaches to learning in cooperative settings typically assume that other
agents' behaviors are stationary, or else make very specific assumptions about
other agents' learning processes. The goal of this work is to understand
whether we can reliably learn to cooperate with other agents without such
restrictive assumptions, which are unlikely to hold in real-world applications.
Our main contribution is a set of impossibility results, which show that no
learning algorithm can reliably learn to cooperate with all possible adaptive
partners in a repeated matrix game, even if that partner is guaranteed to
cooperate with some stationary strategy. Motivated by these results, we then
discuss potential alternative assumptions which capture the idea that an
adaptive partner will only adapt rationally to our behavior.
- Abstract(参考訳): エージェントが私たちの行動に適応する能力を持っている場合、他のエージェントと協力することを学ぶことは困難です。
協調的な環境下での学習の実践的および理論的アプローチは、通常、他のエージェントの行動が定常的であると仮定する。
この研究の目的は、現実の応用では成り立たないような制約的な仮定なしに、他のエージェントと確実に協力できるかどうかを理解することである。
これは、たとえパートナーが定常戦略と協調することが保証されているとしても、学習アルゴリズムが反復行列ゲームで可能なすべての適応的パートナーと確実に協力することを学べないことを示しています。
これらの結果に触発され、適応的パートナーが我々の行動に合理的に適応するという考えを捉え、潜在的に代替的な仮定について議論する。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - Cooperative Open-ended Learning Framework for Zero-shot Coordination [35.330951448600594]
本研究では,2人のプレーヤーによる協調ゲームにおいて,オープンエンドの目標を構築するための枠組みを提案する。
また,ゲーム理論やグラフ理論からの知識を活用する実用的なアルゴリズムを提案する。
本手法は,異なるレベルのパートナーとコーディネートする場合に,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-02-09T18:37:04Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。