論文の概要: Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima
- arxiv url: http://arxiv.org/abs/2110.01212v1
- Date: Mon, 4 Oct 2021 06:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:13:33.038134
- Title: Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima
- Title(参考訳): インセンティブによる平衡誘導: デザインとプレイを同時に行うグローバルオプティマ
- Authors: Boyi Liu, Jiayang Li, Zhuoran Yang, Hoi-To Wai, Mingyi Hong, Yu Marco
Nie, Zhaoran Wang
- Abstract要約: 本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
- 参考スコア(独自算出の注目度): 114.31577038081026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To induce a desired equilibrium in a social system comprised of
self-interested agents, economic incentives (e.g., taxes, tolls, and subsidies)
are often required to correct an inefficient outcome. Such an incentive design
problem naturally possesses a bi-level structure, in which an upper-level
"designer" revises the payoffs of the agents with incentives while anticipating
the response of the agents, who play a non-cooperative game at the lower level.
The existing bi-level optimization algorithms developed in machine learning
raise a dilemma when applied to this problem: anticipating how incentives
affect the agents at equilibrium requires solving the equilibrium problem
repeatedly, which is computationally inefficient; bypassing the time-consuming
step of equilibrium-finding can reduce the computational cost, but may lead to
a sub-optimal solution. Therefore, we propose an efficient method that tackles
the designer's and agents' problems simultaneously in a single loop. At each
iteration, both the designer and the agents only move one step based on the
first-order information. In the proposed scheme, although the designer does not
solve the equilibrium problem repeatedly, it can anticipate the overall
influence of the incentives on the agents, which guarantees optimality. We
prove that the algorithm converges to the global optima at a sublinear rate for
a broad class of games.
- Abstract(参考訳): 利害関係者からなる社会システムにおいて所望の均衡を誘導するために、非効率な成果を是正するために、経済的インセンティブ(税、料金、補助金など)がしばしば求められる。
このようなインセンティブ設計問題は、上層レベルの「設計者」が、非協力的なゲームを下層レベルでプレイするエージェントの応答を期待しながら、インセンティブ付きエージェントの報酬を改訂するバイレベル構造を自然に有する。
機械学習で開発された既存の二段階最適化アルゴリズムは、この問題に適用された場合、ジレンマを生じさせる: 均衡エージェントにどのようなインセンティブが影響するかを予測するには、平衡問題を繰り返し解決する必要があるが、これは計算的に非効率である。
そこで本研究では,デザイナーとエージェントの問題を同時に1ループで解決する効率的な手法を提案する。
各イテレーションで、デザイナーとエージェントは、一階の情報に基づいて1ステップだけ移動します。
提案手法では, 設計者は平衡問題を繰り返し解決しないが, 最適性を保証するエージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域最適化に収束することを示す。
関連論文リスト
- Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Multi-Agent Distributed Reinforcement Learning for Making Decentralized
Offloading Decisions [7.326507804995567]
自律エージェントによる分散意思決定問題として計算オフロードを定式化する。
我々は、競争と協力のバランスをとることで、エージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。
動的環境下では,部分的,遅延的,ノイズの多い状態情報を用いて学習する新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-05T15:01:48Z) - Personalized incentives as feedback design in generalized Nash
equilibrium problems [6.10183951877597]
定常および時間変化の非単調なナッシュ平衡問題について検討する。
半分散Nash平衡探索アルゴリズムを設計する。
いくつかの企業が提供している配車サービスについては,サービスオーケストレーションとして検討しています。
論文 参考訳(メタデータ) (2022-03-24T09:24:29Z) - Learning equilibria with personalized incentives in a class of
nonmonotone games [7.713240800142863]
我々は、ポテンシャルであることが知られているエージェント間の対称相互作用を伴う二次的、非単調なナッシュ均衡問題を考察する。
提案手法では,コーディネータが騒音エージェントのフィードバックを反復的に統合し,エージェントの擬似階調を学習し,パーソナライズされたインセンティブを設計する。
我々は,コーディネータに標準学習ポリシーが与えられた場合,アルゴリズムが平衡を返すことを示す。
論文 参考訳(メタデータ) (2021-11-06T11:18:59Z) - Equilibrium Design for Concurrent Games [5.9873770241999]
ゲーム理論において、メカニズム設計は、ゲームの望ましい結果を達成するためのインセンティブの設計に関係している。
インセンティブの設計について検討し、例えば、所与の時間論理的性質を満たす平衡を求める。
応用として、平衡設計は、並列ゲームに対する合理的な合成と検証問題の代替解として用いられる。
論文 参考訳(メタデータ) (2021-06-18T15:45:45Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - Competitive Mirror Descent [67.31015611281225]
制約のある競合最適化には、制約の対象となる競合する目的を最小化しようとする複数のエージェントが含まれる。
本稿では, 競合ミラー降下法(CMD)を提案する。
特別の場合として、正の円錐上の問題に対する新しい競合乗法重みアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-06-17T22:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。