Fugu-MT 論文翻訳(概要): Paths to Equilibrium in Games

論文の概要: Paths to Equilibrium in Games

arxiv url: http://arxiv.org/abs/2403.18079v2
Date: Tue, 01 Oct 2024 17:33:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:40:46.579776
Title: Paths to Equilibrium in Games
Title（参考訳）: 競技における平衡への道
Authors: Bora Yongacoglu, Gürdal Arslan, Lacra Pavel, Serdar Yüksel,
Abstract要約: 我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
参考スコア（独自算出の注目度）: 6.812247730094933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In multi-agent reinforcement learning (MARL) and game theory, agents repeatedly interact and revise their strategies as new data arrives, producing a sequence of strategy profiles. This paper studies sequences of strategies satisfying a pairwise constraint inspired by policy updating in reinforcement learning, where an agent who is best responding in one period does not switch its strategy in the next period. This constraint merely requires that optimizing agents do not switch strategies, but does not constrain the non-optimizing agents in any way, and thus allows for exploration. Sequences with this property are called satisficing paths, and arise naturally in many MARL algorithms. A fundamental question about strategic dynamics is such: for a given game and initial strategy profile, is it always possible to construct a satisficing path that terminates at an equilibrium? The resolution of this question has implications about the capabilities or limitations of a class of MARL algorithms. We answer this question in the affirmative for normal-form games. Our analysis reveals a counterintuitive insight that reward deteriorating strategic updates are key to driving play to equilibrium along a satisficing path.
Abstract（参考訳）: マルチエージェント強化学習(MARL)とゲーム理論では、エージェントは新たなデータが到着すると、繰り返し対話し、戦略を再検討し、一連の戦略プロファイルを生成する。本稿では,強化学習における政策更新に触発された一対の制約を満たす戦略の列について検討する。この制約は単に、最適化エージェントが戦略を切り替えるのではなく、最適化エージェントをいかなる方法でも制限しないので、探索が可能であることを要求する。この性質を持つ列は充足経路と呼ばれ、多くのMARLアルゴリズムで自然に現れる。あるゲームと初期戦略プロファイルに対して、平衡で終了する満足なパスを構築することは、常に可能であるか? この問題の解決は、MARLアルゴリズムのクラスの性能や制限に影響を及ぼす。通常のゲームに対する肯定的回答として,この疑問に答える。我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。

関連論文リスト

Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics [0.0]
単純な2プレイヤーゲームでもエージェントの相互作用のダイナミクスはナッシュ平衡に達することができないことが示されている。我々のゴールは、安定した行動をもたらすエージェントの合同戦略を特定し、変化に抵抗すると同時に、エージェントの支払いも考慮することである。
論文参考訳（メタデータ） (2025-02-20T16:50:38Z)
Preference-based opponent shaping in differentiable games [3.373994463906893]
そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
論文参考訳（メタデータ） (2024-12-04T06:49:21Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-08-19T15:49:30Z)
Distributed Task Management in Fog Computing: A Socially Concave Bandit Game [7.708904950194129]
Fogコンピューティングは、ネットワークエッジでのタスクオフロード機能を活用して、効率を改善し、アプリケーション要求に対する迅速な応答を可能にする。分散タスク割り当て問題を,帯域幅フィードバックによるソーシャルコンケーブゲームとして定式化する。我々は2つのオンライン意思決定戦略を策定する。
論文参考訳（メタデータ） (2022-03-28T08:26:14Z)
Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文参考訳（メタデータ） (2021-06-23T16:48:46Z)
Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文参考訳（メタデータ） (2021-02-12T15:53:48Z)
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文参考訳（メタデータ） (2021-01-06T19:14:23Z)
On the Impossibility of Convergence of Mixed Strategies with No Regret Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文参考訳（メタデータ） (2020-12-03T18:02:40Z)
Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文参考訳（メタデータ） (2020-02-24T20:30:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。