論文の概要: The Advantage Regret-Matching Actor-Critic
- arxiv url: http://arxiv.org/abs/2008.12234v1
- Date: Thu, 27 Aug 2020 16:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:07:48.920230
- Title: The Advantage Regret-Matching Actor-Critic
- Title(参考訳): アドバンテージレグレスト整合アクター臨界
- Authors: Audr\=unas Gruslys, Marc Lanctot, R\'emi Munos, Finbarr Timbers,
Martin Schmid, Julien Perolat, Dustin Morrill, Vinicius Zambaldi,
Jean-Baptiste Lespiau, John Schultz, Mohammad Gheshlaghi Azar, Michael
Bowling, and Karl Tuyls
- Abstract要約: モデルなし強化学習アルゴリズムを提案する。
ふりかえりの価値見積を使って条件付き利点を予測し、後悔のマッチングと組み合わせて新しいポリシーを作成します。
単一エージェント設定では、ARMACは過去のポリシーをそのままに保つことで、興味深い形の探索を示している。
- 参考スコア(独自算出の注目度): 31.475994100183794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regret minimization has played a key role in online learning, equilibrium
computation in games, and reinforcement learning (RL). In this paper, we
describe a general model-free RL method for no-regret learning based on
repeated reconsideration of past behavior. We propose a model-free RL
algorithm, the AdvantageRegret-Matching Actor-Critic (ARMAC): rather than
saving past state-action data, ARMAC saves a buffer of past policies, replaying
through them to reconstruct hindsight assessments of past behavior. These
retrospective value estimates are used to predict conditional advantages which,
combined with regret matching, produces a new policy. In particular, ARMAC
learns from sampled trajectories in a centralized training setting, without
requiring the application of importance sampling commonly used in Monte Carlo
counterfactual regret (CFR) minimization; hence, it does not suffer from
excessive variance in large environments. In the single-agent setting, ARMAC
shows an interesting form of exploration by keeping past policies intact. In
the multiagent setting, ARMAC in self-play approaches Nash equilibria on some
partially-observable zero-sum benchmarks. We provide exploitability estimates
in the significantly larger game of betting-abstracted no-limit Texas Hold'em.
- Abstract(参考訳): レジスト最小化はオンライン学習、ゲームにおける平衡計算、強化学習(RL)において重要な役割を果たしてきた。
本稿では,過去の行動の繰り返し再検討に基づく非回帰学習のための汎用モデルフリーrl法について述べる。
過去の状態行動データを保存するのではなく、armacは過去のポリシーのバッファを保存し、それらを再生して過去の行動の隠れた評価を再構築する。
これらのふりかえりの価値見積もりは、後悔の一致とともに新しいポリシーを生み出す条件付き利益を予測するために使われます。
特にARMACは、モンテカルロの反事実的後悔 (CFR) の最小化で一般的に使用される重要サンプリングの応用を必要とせず、集中的なトレーニング環境でサンプリングされた軌跡から学習する。
単一エージェント設定では、ARMACは過去のポリシーをそのままに保つことで、興味深い形の探索を示している。
マルチエージェント設定では、自己プレーのARMACは部分的に観測可能なゼロサムベンチマークでナッシュ平衡にアプローチする。
我々は,テキサスホールディングスの賭けを減らしたゲームにおいて,エクスプロイラビリティーの推定値を提供する。
関連論文リスト
- May the Forgetting Be with You: Alternate Replay for Learning with Noisy Labels [16.262555459431155]
本稿では、メモリバッファ内のクリーンで複雑でノイズの多いサンプルの明確な区別を維持するために、忘れることの利点を生かしたAlternate Experience Replay(AER)を紹介する。
得られたバッファの精度と純度の両方の観点から,本手法の有効性を実証し,既存の損失ベース浄化戦略に対して,平均4.71%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-08-26T14:09:40Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - When Learning Is Out of Reach, Reset: Generalization in Autonomous
Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。
この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。
提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文 参考訳(メタデータ) (2023-03-30T17:59:26Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。