論文の概要: On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality
- arxiv url: http://arxiv.org/abs/2010.10901v2
- Date: Fri, 22 Jan 2021 22:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:17:55.921901
- Title: On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality
- Title(参考訳): 競合的マルチエージェント強化学習における情報非対称性:収束性と最適性
- Authors: Ezra Tampubolon, Haris Ceribasic, Holger Boche
- Abstract要約: 協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
- 参考スコア(独自算出の注目度): 78.76529463321374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the system of interacting non-cooperative two
Q-learning agents, where one agent has the privilege of observing the other's
actions. We show that this information asymmetry can lead to a stable outcome
of population learning, which generally does not occur in an environment of
general independent learners. The resulting post-learning policies are almost
optimal in the underlying game sense, i.e., they form a Nash equilibrium.
Furthermore, we propose in this work a Q-learning algorithm, requiring
predictive observation of two subsequent opponent's actions, yielding an
optimal strategy given that the latter applies a stationary strategy, and
discuss the existence of the Nash equilibrium in the underlying information
asymmetrical game.
- Abstract(参考訳): 本研究では,非協力的な2つのq-ラーニングエージェントを相互作用させ,一方のエージェントが他方の行動を観察する特権を有するシステムについて検討する。
この情報非対称性は、一般の独立学習者の環境では一般的には起こらない、集団学習の安定した結果をもたらす可能性があることを示す。
結果として得られる学習後ポリシーは、ゲーム感覚、すなわちナッシュ均衡においてほぼ最適である。
さらに,本研究では,後続の2つの相手の行動の予測的観察を必要とするq学習アルゴリズムを提案し,後者が定常戦略を適用することを前提とした最適戦略を与え,基礎となる情報非対称ゲームにおけるナッシュ均衡の存在を議論する。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - LOQA: Learning with Opponent Q-Learning Awareness [1.1666234644810896]
本稿では,エージェントの個々のユーティリティを最適化する分散型強化学習アルゴリズムであるLearning with Opponent Q-Learning Awareness (LOQA)を紹介する。
LOQAは、Iterated Prisoner's DilemmaやCoin Gameのようなベンチマークシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-02T06:33:01Z) - Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.098826226730246]
ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。
従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。
また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T12:46:54Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。