論文の概要: Uncoupled Learning of Differential Stackelberg Equilibria with
Commitments
- arxiv url: http://arxiv.org/abs/2302.03438v1
- Date: Tue, 7 Feb 2023 12:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:35:41.795726
- Title: Uncoupled Learning of Differential Stackelberg Equilibria with
Commitments
- Title(参考訳): コミットメントを伴う微分stackelberg平衡の非結合学習
- Authors: Robert Loftin, Mustafa Mert \c{C}elikok, Herke van Hoof, Samuel Kaski,
Frans A. Oliehoek
- Abstract要約: 我々は,各プレイヤーの学習更新が相手の行動の観察にのみ依存する未結合の学習過程を示す。
この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することが証明された。
- 参考スコア(独自算出の注目度): 36.08560307852286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A natural solution concept for many multiagent settings is the Stackelberg
equilibrium, under which a ``leader'' agent selects a strategy that maximizes
its own payoff assuming the ``follower'' chooses their best response to this
strategy. Recent work has presented asymmetric learning updates that can be
shown to converge to the \textit{differential} Stackelberg equilibria of
two-player differentiable games. These updates are ``coupled'' in the sense
that the leader requires some information about the follower's payoff function.
Such coupled learning rules cannot be applied to \textit{ad hoc} interactive
learning settings, and can be computationally impractical even in centralized
training settings where the follower's payoffs are known. In this work, we
present an ``uncoupled'' learning process under which each player's learning
update only depends on their observations of the other's behavior. We prove
that this process converges to a local Stackelberg equilibrium under similar
conditions as previous coupled methods. We conclude with a discussion of the
potential applications of our approach to human--AI cooperation and multi-agent
reinforcement learning.
- Abstract(参考訳): 多くのマルチエージェント設定に対する自然解の概念はスタックルバーグ均衡であり、「リーダー」エージェントが「フォロワー」がこの戦略に対する最良の反応を選択すると仮定して、自身の支払いを最大化する戦略を選択する。
近年の研究では、2人のプレイヤーによる微分可能ゲームの \textit{differential} stackelberg equilibria に収束する非対称学習のアップデートが示されている。
これらの更新は、リーダーがフォロワーのペイオフ機能について何らかの情報を必要としているという意味で ``coupled''' である。
このような結合学習ルールは、\textit{ad hoc}インタラクティブな学習設定には適用できない。
本研究では、各プレイヤーの学習更新が相手の行動の観察にのみ依存する「非結合」学習過程を示す。
この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することを示す。
最後に,人間-ai連携とマルチエージェント強化学習へのアプローチの応用可能性について考察した。
関連論文リスト
- Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。
実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。
特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文 参考訳(メタデータ) (2024-10-10T15:28:04Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。