論文の概要: Uncoupled Learning of Differential Stackelberg Equilibria with
Commitments
- arxiv url: http://arxiv.org/abs/2302.03438v1
- Date: Tue, 7 Feb 2023 12:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:35:41.795726
- Title: Uncoupled Learning of Differential Stackelberg Equilibria with
Commitments
- Title(参考訳): コミットメントを伴う微分stackelberg平衡の非結合学習
- Authors: Robert Loftin, Mustafa Mert \c{C}elikok, Herke van Hoof, Samuel Kaski,
Frans A. Oliehoek
- Abstract要約: 我々は,各プレイヤーの学習更新が相手の行動の観察にのみ依存する未結合の学習過程を示す。
この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することが証明された。
- 参考スコア(独自算出の注目度): 36.08560307852286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A natural solution concept for many multiagent settings is the Stackelberg
equilibrium, under which a ``leader'' agent selects a strategy that maximizes
its own payoff assuming the ``follower'' chooses their best response to this
strategy. Recent work has presented asymmetric learning updates that can be
shown to converge to the \textit{differential} Stackelberg equilibria of
two-player differentiable games. These updates are ``coupled'' in the sense
that the leader requires some information about the follower's payoff function.
Such coupled learning rules cannot be applied to \textit{ad hoc} interactive
learning settings, and can be computationally impractical even in centralized
training settings where the follower's payoffs are known. In this work, we
present an ``uncoupled'' learning process under which each player's learning
update only depends on their observations of the other's behavior. We prove
that this process converges to a local Stackelberg equilibrium under similar
conditions as previous coupled methods. We conclude with a discussion of the
potential applications of our approach to human--AI cooperation and multi-agent
reinforcement learning.
- Abstract(参考訳): 多くのマルチエージェント設定に対する自然解の概念はスタックルバーグ均衡であり、「リーダー」エージェントが「フォロワー」がこの戦略に対する最良の反応を選択すると仮定して、自身の支払いを最大化する戦略を選択する。
近年の研究では、2人のプレイヤーによる微分可能ゲームの \textit{differential} stackelberg equilibria に収束する非対称学習のアップデートが示されている。
これらの更新は、リーダーがフォロワーのペイオフ機能について何らかの情報を必要としているという意味で ``coupled''' である。
このような結合学習ルールは、\textit{ad hoc}インタラクティブな学習設定には適用できない。
本研究では、各プレイヤーの学習更新が相手の行動の観察にのみ依存する「非結合」学習過程を示す。
この過程は, 従来と類似した条件下で局所的なスタックルバーグ平衡に収束することを示す。
最後に,人間-ai連携とマルチエージェント強化学習へのアプローチの応用可能性について考察した。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg
Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning Correlated Stackelberg Equilibrium in General-Sum
Multi-Leader-Single-Follower Games [16.810700878778007]
本研究では、非対称な役割を持つプレイヤーをリーダーとフォロワーに分けることができる階層型マルチプレイヤーゲーム構造について検討する。
特に、複数のリーダーと1人のフォロワーがいるStackelbergのゲームシナリオに焦点を当てています。
我々は、CSE(Correlated Stackelberg Equilibrium)と呼ばれるMLSFゲームのための新しい非対称平衡概念を提案する。
論文 参考訳(メタデータ) (2022-10-22T15:05:44Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。