論文の概要: Explore Reinforced: Equilibrium Approximation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.02016v1
- Date: Mon, 02 Dec 2024 22:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:40.959939
- Title: Explore Reinforced: Equilibrium Approximation with Reinforcement Learning
- Title(参考訳): 強化学習による平衡近似の探索
- Authors: Ryan Yu, Mateusz Nowak, Qintong Xie, Michelle Yilin Feng, Peter Chin,
- Abstract要約: RLとゲーム理論を融合したExp3-IXrlを導入し、RLエージェントの作用選択を平衡から分離する。
我々は,このアルゴリズムが平衡近似アルゴリズムを新しい環境に適用することを実証した。
- 参考スコア(独自算出の注目度): 3.214961078500366
- License:
- Abstract: Current approximate Coarse Correlated Equilibria (CCE) algorithms struggle with equilibrium approximation for games in large stochastic environments but are theoretically guaranteed to converge to a strong solution concept. In contrast, modern Reinforcement Learning (RL) algorithms provide faster training yet yield weaker solutions. We introduce Exp3-IXrl - a blend of RL and game-theoretic approach, separating the RL agent's action selection from the equilibrium computation while preserving the integrity of the learning process. We demonstrate that our algorithm expands the application of equilibrium approximation algorithms to new environments. Specifically, we show the improved performance in a complex and adversarial cybersecurity network environment - the Cyber Operations Research Gym - and in the classical multi-armed bandit settings.
- Abstract(参考訳): 現在の粗相関平衡(CCE)アルゴリズムは、大きな確率環境でのゲームの平衡近似に苦慮するが、理論上は強い解の概念に収束することが保証されている。
対照的に、現代の強化学習(RL)アルゴリズムはより高速なトレーニングを提供するが、より弱いソリューションをもたらす。
RLとゲーム理論を融合したExp3-IXrlを導入し、学習過程の完全性を維持しつつ、RLエージェントの動作選択を平衡計算から分離する。
我々は,このアルゴリズムが平衡近似アルゴリズムを新しい環境に適用することを実証した。
具体的には、複雑で敵対的なサイバーセキュリティネットワーク環境であるサイバーオペレーションリサーチギム(Cyber Operations Research Gym)と、古典的なマルチアームバンディット設定におけるパフォーマンスの改善を示す。
関連論文リスト
- Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Turbocharging Solution Concepts: Solving NEs, CEs and CCEs with Neural
Equilibrium Solvers [22.85979978964773]
Nash Equilibria、Correlated Equilibria、Coarse Correlated Equilibriaといったソリューション概念は多くのマルチエージェント機械学習アルゴリズムに有用なコンポーネントである。
本稿では, ニューラルネットワークアーキテクチャを応用して, 固定形状, 購入速度, 決定性のすべてのゲームの空間を大まかに解決するニューラル平衡解法を提案する。
論文 参考訳(メタデータ) (2022-10-17T17:00:31Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers [21.462231105582347]
本稿では,n-player, general-sum extensive form game におけるエージェントのトレーニングアルゴリズムを提案する。
また,メタソリューションとして相関平衡(CE)を提案するとともに,新しい解法概念であるGini Correlated Equilibrium(MGCE)を提案する。
JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。
論文 参考訳(メタデータ) (2021-06-17T12:34:18Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。