Fugu-MT 論文翻訳(概要): Uncoupled Learning of Differential Stackelberg Equilibria with Commitments

論文の概要: Uncoupled Learning of Differential Stackelberg Equilibria with Commitments

arxiv url: http://arxiv.org/abs/2302.03438v1
Date: Tue, 7 Feb 2023 12:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 16:35:41.795726
Title: Uncoupled Learning of Differential Stackelberg Equilibria with Commitments
Title（参考訳）: コミットメントを伴う微分stackelberg平衡の非結合学習
Authors: Robert Loftin, Mustafa Mert \c{C}elikok, Herke van Hoof, Samuel Kaski, Frans A. Oliehoek
Abstract要約: 我々は,各プレイヤーの学習更新が相手の行動の観察にのみ依存する未結合の学習過程を示す。この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することが証明された。
参考スコア（独自算出の注目度）: 36.08560307852286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A natural solution concept for many multiagent settings is the Stackelberg equilibrium, under which a ``leader'' agent selects a strategy that maximizes its own payoff assuming the ``follower'' chooses their best response to this strategy. Recent work has presented asymmetric learning updates that can be shown to converge to the \textit{differential} Stackelberg equilibria of two-player differentiable games. These updates are ``coupled'' in the sense that the leader requires some information about the follower's payoff function. Such coupled learning rules cannot be applied to \textit{ad hoc} interactive learning settings, and can be computationally impractical even in centralized training settings where the follower's payoffs are known. In this work, we present an ``uncoupled'' learning process under which each player's learning update only depends on their observations of the other's behavior. We prove that this process converges to a local Stackelberg equilibrium under similar conditions as previous coupled methods. We conclude with a discussion of the potential applications of our approach to human--AI cooperation and multi-agent reinforcement learning.
Abstract（参考訳）: 多くのマルチエージェント設定に対する自然解の概念はスタックルバーグ均衡であり、「リーダー」エージェントが「フォロワー」がこの戦略に対する最良の反応を選択すると仮定して、自身の支払いを最大化する戦略を選択する。近年の研究では、2人のプレイヤーによる微分可能ゲームの \textit{differential} stackelberg equilibria に収束する非対称学習のアップデートが示されている。これらの更新は、リーダーがフォロワーのペイオフ機能について何らかの情報を必要としているという意味で ``coupled''' である。このような結合学習ルールは、\textit{ad hoc}インタラクティブな学習設定には適用できない。本研究では、各プレイヤーの学習更新が相手の行動の観察にのみ依存する「非結合」学習過程を示す。この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することを示す。最後に,人間-ai連携とマルチエージェント強化学習へのアプローチの応用可能性について考察した。

関連論文リスト

Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文参考訳（メタデータ） (2024-10-10T15:28:04Z)
Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文参考訳（メタデータ） (2024-07-25T14:28:58Z)
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文参考訳（メタデータ） (2023-04-20T14:47:54Z)
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文参考訳（メタデータ） (2023-04-10T15:44:50Z)
Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文参考訳（メタデータ） (2022-10-28T14:45:39Z)
Independent and Decentralized Learning in Markov Potential Games [3.549868541921029]
マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
論文参考訳（メタデータ） (2022-05-29T07:39:09Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文参考訳（メタデータ） (2020-10-31T22:50:21Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。