論文の概要: Iterated $Q$-Network: Beyond the One-Step Bellman Operator
- arxiv url: http://arxiv.org/abs/2403.02107v1
- Date: Mon, 4 Mar 2024 15:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:27:44.484057
- Title: Iterated $Q$-Network: Beyond the One-Step Bellman Operator
- Title(参考訳): 反復$Q$-Network: 1ステップのベルマン演算子を超えて
- Authors: Th\'eo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo
D'Eramo
- Abstract要約: 我々は、$Q$-関数近似のシーケンスを学習する新しいアプローチである、$Q$-Networks (iQN) を反復的に導入する。
iQNがバリューベースおよびアクタークリティカルメソッドでシームレスに利用できるかを示す。
- 参考スコア(独自算出の注目度): 20.870276787316314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Value-based Reinforcement Learning (RL) methods rely on the application of
the Bellman operator, which needs to be approximated from samples. Most
approaches consist of an iterative scheme alternating the application of the
Bellman operator and a subsequent projection step onto a considered function
space. However, we observe that these algorithms can be improved by considering
multiple iterations of the Bellman operator at once. Thus, we introduce
iterated $Q$-Networks (iQN), a novel approach that learns a sequence of
$Q$-function approximations where each $Q$-function serves as the target for
the next one in a chain of consecutive Bellman iterations. We demonstrate that
iQN is theoretically sound and show how it can be seamlessly used in
value-based and actor-critic methods. We empirically demonstrate its advantages
on Atari $2600$ games and in continuous-control MuJoCo environments.
- Abstract(参考訳): 値に基づく強化学習(RL)手法は、サンプルから近似する必要があるベルマン演算子の応用に依存している。
ほとんどのアプローチは、ベルマン作用素の応用を交互に繰り返す反復スキームと、それに続く関数空間への射影ステップからなる。
しかし,ベルマン演算子の複数イテレーションを一度に検討することで,これらのアルゴリズムを改良することができる。
そこで本研究では,連続するベルマン反復の連鎖において,各$Q$-関数が次の目標となるような,$Q$-関数近似の列を学習する新しいアプローチである,反復$Q$-Networks (iQN)を紹介した。
iqnは理論的に健全であり,価値ベースおよびアクタクリティカルな方法でシームレスに使用できることを示す。
Atari 2600ドルのゲームや、MuJoCo環境における利点を実証的に実証した。
関連論文リスト
- Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Multi-Bellman operator for convergence of $Q$-learning with linear
function approximation [3.6218162133579694]
線形関数近似を用いた$Q$-learningの収束について検討する。
新規なマルチベルマン作用素の性質を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定する。
このアルゴリズムは、射影されたマルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T19:56:31Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Finite-Sample Analysis of Off-Policy TD-Learning via Generalized Bellman
Operators [37.65565099740316]
一般のオフポリチックなTD様近似アルゴリズムに対して有限サンプル境界を導出する。
Qpi(lambda)$, Tree-Backup$(lambda)$, Retrace$(lambda)$に対して最初の既知の有限サンプル保証を提供します。
論文 参考訳(メタデータ) (2021-06-24T02:22:36Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation [30.137884459159107]
連続状態と行動空間を用いた強化学習において,Q$関数を効率よく学習する方法を考える。
我々は、$epsilon$-Schmidt $Q$-functionと$widetildeO(frac1epsilonmax(d1, d_2)+2)$のサンプル複雑性を求める単純な反復学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-06-11T00:55:35Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。