論文の概要: Implicitly Regularized RL with Implicit Q-Values
- arxiv url: http://arxiv.org/abs/2108.07041v1
- Date: Mon, 16 Aug 2021 12:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 14:52:57.012951
- Title: Implicitly Regularized RL with Implicit Q-Values
- Title(参考訳): 暗黙的Q値を持つ暗黙的正規化RL
- Authors: Nino Vieillard, Marcin Andrychowicz, Anton Raichuk, Olivier Pietquin,
Matthieu Geist
- Abstract要約: Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
- 参考スコア(独自算出の注目度): 42.87920755961722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The $Q$-function is a central quantity in many Reinforcement Learning (RL)
algorithms for which RL agents behave following a (soft)-greedy policy w.r.t.
to $Q$. It is a powerful tool that allows action selection without a model of
the environment and even without explicitly modeling the policy. Yet, this
scheme can only be used in discrete action tasks, with small numbers of
actions, as the softmax cannot be computed exactly otherwise. Especially the
usage of function approximation, to deal with continuous action spaces in
modern actor-critic architectures, intrinsically prevents the exact computation
of a softmax. We propose to alleviate this issue by parametrizing the
$Q$-function implicitly, as the sum of a log-policy and of a value function. We
use the resulting parametrization to derive a practical off-policy deep RL
algorithm, suitable for large action spaces, and that enforces the softmax
relation between the policy and the $Q$-value. We provide a theoretical
analysis of our algorithm: from an Approximate Dynamic Programming perspective,
we show its equivalence to a regularized version of value iteration, accounting
for both entropy and Kullback-Leibler regularization, and that enjoys
beneficial error propagation results. We then evaluate our algorithm on classic
control tasks, where its results compete with state-of-the-art methods.
- Abstract(参考訳): Q$関数は、多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレードポリシー w.r.t に従って振る舞う。
は$Q$。
これは、ポリシーを明示的にモデル化することなく、環境のモデルなしでアクションの選択を可能にする強力なツールである。
しかし、このスキームは、ソフトマックスを正確に計算できないため、少数のアクションを持つ離散的なアクションタスクでのみ使用できる。
特に、現代のアクター-批判的アーキテクチャにおける連続的なアクション空間を扱うために関数近似を使うことは、本質的にソフトマックスの正確な計算を妨げている。
対数政治と値関数の和として$Q$-関数を暗黙的にパラメータ化することでこの問題を軽減することを提案する。
結果として得られるパラメトリゼーションは、大きなアクション空間に適した実用的なオフポリシー深層rlアルゴリズムを導出し、ポリシーと$q$-valueの間のソフトマックス関係を強制する。
近似動的プログラミングの観点からは、値反復の正規化版と等価性を示し、エントロピーとkullback-leiblerの正規化の両方を考慮し、有益な誤差伝播結果を享受する。
次に,従来の制御課題におけるアルゴリズムの評価を行い,その結果が最先端の手法と競合することを示す。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - On the Model-Misspecification in Reinforcement Learning [9.864462523050843]
本稿では,強化学習におけるモデルの誤特定に対処するための統一的理論的枠組みを提案する。
本研究では,値に基づく手法とモデルに基づく手法が,局所的不特定誤差境界の下で頑健性を実現することを示す。
また、$zeta$の事前知識なしで同じ後悔の順序を達成できるアルゴリズム的フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T04:31:59Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Confident Approximate Policy Iteration for Efficient Local Planning in
$q^\pi$-realizable MDPs [2.5652904661855076]
我々は、$gamma$-discounted Markov決定過程における近似動的プログラミングについて考察する。
私たちの最初のコントリビューションは、CAPI(Confident Approximate Policy Iteration)と呼ばれる、新しいバージョンの近似ポリシーイテレーション(API)です。
CAPIは、最適エラーバウンドスケーリングによる決定論的定常ポリシーを、有効地平線$H$と最悪の近似誤差$epsilon$の積と線形に計算する。
論文 参考訳(メタデータ) (2022-10-27T20:19:31Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。