論文の概要: Learning in two-player games between transparent opponents
- arxiv url: http://arxiv.org/abs/2012.02671v1
- Date: Fri, 4 Dec 2020 15:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 03:17:38.839394
- Title: Learning in two-player games between transparent opponents
- Title(参考訳): 透明な対戦相手間の2人プレイゲームにおける学習
- Authors: Adrian Hutter
- Abstract要約: 2つの強化学習エージェントが互いにマトリックスゲームを繰り返すシナリオを考察する。
エージェントの意思決定は互いに透明であり、各エージェントはそれぞれのエージェントに対してどのように対戦するかを予測することができる。
その結果, 相互透明な意思決定と対人意識学習の組み合わせが, 単発受刑者のジレンマにおける相互協力に強く寄与していることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a scenario in which two reinforcement learning agents repeatedly
play a matrix game against each other and update their parameters after each
round. The agents' decision-making is transparent to each other, which allows
each agent to predict how their opponent will play against them. To prevent an
infinite regress of both agents recursively predicting each other indefinitely,
each agent is required to give an opponent-independent response with some
probability at least epsilon. Transparency also allows each agent to anticipate
and shape the other agent's gradient step, i.e. to move to regions of parameter
space in which the opponent's gradient points in a direction favourable to
them. We study the resulting dynamics experimentally, using two algorithms from
previous literature (LOLA and SOS) for opponent-aware learning. We find that
the combination of mutually transparent decision-making and opponent-aware
learning robustly leads to mutual cooperation in a single-shot prisoner's
dilemma. In a game of chicken, in which both agents try to manoeuvre their
opponent towards their preferred equilibrium, converging to a mutually
beneficial outcome turns out to be much harder, and opponent-aware learning can
even lead to worst-case outcomes for both agents. This highlights the need to
develop opponent-aware learning algorithms that achieve acceptable outcomes in
social dilemmas involving an equilibrium selection problem.
- Abstract(参考訳): 2つの強化学習エージェントが互いにマトリックスゲームを繰り返すシナリオを検討し,各ラウンドの後にパラメータを更新する。
エージェントの意思決定は互いに透明であり、各エージェントが対戦相手がどのように振る舞うかを予測することができる。
双方のエージェントの無限の回帰を無期限に予測するためには、各エージェントは少なくともエプシロンの確率で相手非依存の応答を与える必要がある。
透明性はまた、各エージェントが他のエージェントの勾配ステップ、すなわち、予測して形作ることを可能にする。
相手の勾配がそれらに好適な方向にあるパラメータ空間の領域に移動する。
本研究では,従来の文献(LOLAとSOS)の2つのアルゴリズムを用いて,実験結果のダイナミクスを検証した。
我々は, 相互透明な意思決定と対人意識学習の組み合わせが, 単発受刑者のジレンマにおける相互協力に強く寄与することを発見した。
ニワトリのゲームでは、双方のエージェントが好適な均衡に向かって相手を操作しようとすると、相互に有利な結果に収束することが難しくなり、対戦意識の学習は双方のエージェントにとって最悪の結果をもたらす。
これは、均衡選択問題を含む社会的ジレンマにおいて許容できる結果を達成する対向学習アルゴリズムを開発する必要性を強調している。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文 参考訳(メタデータ) (2022-09-16T07:35:20Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Cooperative Artificial Intelligence [0.0]
我々は,ゲーム理論と人工知能の交わりに関する研究の必要性を論じる。
本稿では,外部エージェントが人工学習者の協調を促進する方法について議論する。
また, 計画エージェントをオフにしても, 結果が一定のゲームにおいて安定であることを示す。
論文 参考訳(メタデータ) (2022-02-20T16:50:37Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。