論文の概要: Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response
- arxiv url: http://arxiv.org/abs/2006.09585v2
- Date: Sat, 20 Jun 2020 04:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 20:19:45.637450
- Title: Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response
- Title(参考訳): ベストレスポンスによるマルチエージェント強化学習の政策評価と探究
- Authors: Rui Yan and Xiaoming Duan and Zongying Shi and Yisheng Zhong and Jason
R. Marden and Francesco Bullo
- Abstract要約: 多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
- 参考スコア(独自算出の注目度): 15.149039407681945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces two metrics (cycle-based and memory-based metrics),
grounded on a dynamical game-theoretic solution concept called sink
equilibrium, for the evaluation, ranking, and computation of policies in
multi-agent learning. We adopt strict best response dynamics (SBRD) to model
selfish behaviors at a meta-level for multi-agent reinforcement learning. Our
approach can deal with dynamical cyclical behaviors (unlike approaches based on
Nash equilibria and Elo ratings), and is more compatible with single-agent
reinforcement learning than alpha-rank which relies on weakly better responses.
We first consider settings where the difference between largest and second
largest underlying metric has a known lower bound. With this knowledge we
propose a class of perturbed SBRD with the following property: only policies
with maximum metric are observed with nonzero probability for a broad class of
stochastic games with finite memory. We then consider settings where the lower
bound for the difference is unknown. For this setting, we propose a class of
perturbed SBRD such that the metrics of the policies observed with nonzero
probability differ from the optimal by any given tolerance. The proposed
perturbed SBRD addresses the opponent-induced non-stationarity by fixing the
strategies of others for the learning agent, and uses empirical game-theoretic
analysis to estimate payoffs for each strategy profile obtained due to the
perturbation.
- Abstract(参考訳): 本稿では,マルチエージェント学習における政策の評価,ランク付け,計算のために,シンク均衡と呼ばれる動的ゲーム理論的な解法を基礎とした2つの指標(サイクルベースとメモリベースメトリクス)を提案する。
我々は,マルチエージェント強化学習のためのメタレベルにおける利己的な行動のモデル化に,厳格なベストレスポンスダイナミクス(sbrd)を採用する。
我々のアプローチは動的な循環的行動(nash平衡とelo ratingsに基づくアプローチとは異なり)に対応でき、弱い反応に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
まず、最も大きいメートルと2番目に大きいメートルの差が既知の下界を持つような設定を考える。
この知識を用いて、摂動型SBRDのクラスを以下の性質で提案する: 有限メモリを持つ幅広い確率ゲームに対して、最大距離を持つポリシーのみがゼロ確率で観測される。
次に、違いに対する下限が不明な設定について検討する。
この設定のために、非ゼロ確率で観測されたポリシーのメトリクスが任意の許容度によって最適値と異なるような摂動型SBRDのクラスを提案する。
提案した摂動型SBRDは,学習エージェントの他者の戦略を固定することにより,相手の非定常性に対処し,経験的ゲーム理論解析を用いて,摂動によって得られる各戦略プロファイルに対する支払いを推定する。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。