論文の概要: How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games
- arxiv url: http://arxiv.org/abs/2210.13064v1
- Date: Mon, 24 Oct 2022 09:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:19:10.262166
- Title: How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games
- Title(参考訳): 自動運転はどれくらい悪いのか?
都市走行ゲームにおける平衡の非効率性
- Authors: Alessandro Zanardi, Pier Giuseppe Sessa, Nando K\"aslin, Saverio
Bolognani, Andrea Censi, Emilio Frazzoli
- Abstract要約: 我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
- 参考スコア(独自算出の注目度): 64.71476526716668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the interaction among agents engaging in a driving task and we
model it as general-sum game. This class of games exhibits a plurality of
different equilibria posing the issue of equilibrium selection. While selecting
the most efficient equilibrium (in term of social cost) is often impractical
from a computational standpoint, in this work we study the (in)efficiency of
any equilibrium players might agree to play. More specifically, we bound the
equilibrium inefficiency by modeling driving games as particular type of
congestion games over spatio-temporal resources. We obtain novel guarantees
that refine existing bounds on the Price of Anarchy (PoA) as a function of
problem-dependent game parameters. For instance, the relative trade-off between
proximity costs and personal objectives such as comfort and progress. Although
the obtained guarantees concern open-loop trajectories, we observe efficient
equilibria even when agents employ closed-loop policies trained via
decentralized multi-agent reinforcement learning.
- Abstract(参考訳): 我々は,運転作業に携わるエージェント間のインタラクションを検討し,それを汎用ゲームとしてモデル化する。
このクラスのゲームは、平衡選択の問題を示す複数の異なる平衡を示す。
最も効率的な均衡(社会的コストの観点で)を選択することは、しばしば計算の観点からは非現実的であるが、この研究では、任意の均衡選手の効率性について研究する。
より具体的には、時空間資源上の特定の種類の混雑ゲームとして駆動ゲームをモデル化することで平衡非効率性に縛り付ける。
問題依存型ゲームパラメータの関数として,Price of Anarchy (PoA) の既存の境界を洗練できることを保証する。
例えば、近接コストと快適さや進歩といった個人的な目的との相対的なトレードオフ。
その結果, エージェントが分散型マルチエージェント強化学習を用いて訓練された閉ループポリシーを採用する場合においても, 効率の良い平衡性が得られることがわかった。
関連論文リスト
- On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Bayes correlated equilibria and no-regret dynamics [9.89901717499058]
本稿では,不完全情報を持つゲームの基本モデルであるベイズゲームに対する平衡概念について検討する。
我々は,各プレイヤーのプライベート情報を収集し,関連するレコメンデーションをプレイヤーに送信する仲介者によって実現可能なコミュニケーション均衡に焦点を当てる。
本稿では,非直交スワップ後悔を線形上界で最小化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-11T06:22:51Z) - Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning [37.176741793213694]
我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
論文 参考訳(メタデータ) (2023-03-31T22:50:47Z) - Abstracting Imperfect Information Away from Two-Player Zero-Sum Games [85.27865680662973]
Nayyar et al. (2013) は、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。
この研究は、ある正規化された平衡が上記の非対応問題を持たないことを示している。
これらの正規化された平衡はナッシュ平衡に任意に近づくことができるので、この結果は2つのプレイヤーゼロサムゲームを解くための新たな視点への扉を開く。
論文 参考訳(メタデータ) (2023-01-22T16:54:06Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Follow-the-Regularized-Leader Routes to Chaos in Routing Games [23.497377573947382]
ゲームにおけるフォロー・ザ・レギュラライズ・リーダー(FoReL)ダイナミクスのカオス行動の出現について検討する。
安定なナッシュ平衡の共存や同じゲームにおけるカオスなど、新しい非標準現象の存在を示す。
FoReLダイナミクスは奇妙で非平衡ですが、我々は時間平均が学習率の選択とコストのあらゆるスケールのために正確な平衡にまだ収束していることを証明します。
論文 参考訳(メタデータ) (2021-02-16T06:40:31Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。