論文の概要: Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response
- arxiv url: http://arxiv.org/abs/2006.09585v2
- Date: Sat, 20 Jun 2020 04:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 20:19:45.637450
- Title: Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response
- Title(参考訳): ベストレスポンスによるマルチエージェント強化学習の政策評価と探究
- Authors: Rui Yan and Xiaoming Duan and Zongying Shi and Yisheng Zhong and Jason
R. Marden and Francesco Bullo
- Abstract要約: 多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
- 参考スコア(独自算出の注目度): 15.149039407681945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces two metrics (cycle-based and memory-based metrics),
grounded on a dynamical game-theoretic solution concept called sink
equilibrium, for the evaluation, ranking, and computation of policies in
multi-agent learning. We adopt strict best response dynamics (SBRD) to model
selfish behaviors at a meta-level for multi-agent reinforcement learning. Our
approach can deal with dynamical cyclical behaviors (unlike approaches based on
Nash equilibria and Elo ratings), and is more compatible with single-agent
reinforcement learning than alpha-rank which relies on weakly better responses.
We first consider settings where the difference between largest and second
largest underlying metric has a known lower bound. With this knowledge we
propose a class of perturbed SBRD with the following property: only policies
with maximum metric are observed with nonzero probability for a broad class of
stochastic games with finite memory. We then consider settings where the lower
bound for the difference is unknown. For this setting, we propose a class of
perturbed SBRD such that the metrics of the policies observed with nonzero
probability differ from the optimal by any given tolerance. The proposed
perturbed SBRD addresses the opponent-induced non-stationarity by fixing the
strategies of others for the learning agent, and uses empirical game-theoretic
analysis to estimate payoffs for each strategy profile obtained due to the
perturbation.
- Abstract(参考訳): 本稿では,マルチエージェント学習における政策の評価,ランク付け,計算のために,シンク均衡と呼ばれる動的ゲーム理論的な解法を基礎とした2つの指標(サイクルベースとメモリベースメトリクス)を提案する。
我々は,マルチエージェント強化学習のためのメタレベルにおける利己的な行動のモデル化に,厳格なベストレスポンスダイナミクス(sbrd)を採用する。
我々のアプローチは動的な循環的行動(nash平衡とelo ratingsに基づくアプローチとは異なり)に対応でき、弱い反応に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
まず、最も大きいメートルと2番目に大きいメートルの差が既知の下界を持つような設定を考える。
この知識を用いて、摂動型SBRDのクラスを以下の性質で提案する: 有限メモリを持つ幅広い確率ゲームに対して、最大距離を持つポリシーのみがゼロ確率で観測される。
次に、違いに対する下限が不明な設定について検討する。
この設定のために、非ゼロ確率で観測されたポリシーのメトリクスが任意の許容度によって最適値と異なるような摂動型SBRDのクラスを提案する。
提案した摂動型SBRDは,学習エージェントの他者の戦略を固定することにより,相手の非定常性に対処し,経験的ゲーム理論解析を用いて,摂動によって得られる各戦略プロファイルに対する支払いを推定する。
関連論文リスト
- Preference Poisoning Attacks on Reward Model Learning [49.806139447922526]
攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Discovering How Agents Learn Using Few Data [32.38609641970052]
本稿では,単一系軌道の短いバーストを用いたエージェント動作のリアルタイム同定のための理論的,アルゴリズム的なフレームワークを提案する。
提案手法は, 平衡選択やカオスシステムの予測など, 様々なベンチマークにおいて, 真の力学を正確に再現する。
これらの結果から,戦略的マルチエージェントシステムにおいて,効果的な政策と意思決定を支援する可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。