論文の概要: Iterated $Q$-Network: Beyond the One-Step Bellman Operator
- arxiv url: http://arxiv.org/abs/2403.02107v1
- Date: Mon, 4 Mar 2024 15:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:27:44.484057
- Title: Iterated $Q$-Network: Beyond the One-Step Bellman Operator
- Title(参考訳): 反復$Q$-Network: 1ステップのベルマン演算子を超えて
- Authors: Th\'eo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo
D'Eramo
- Abstract要約: 我々は、$Q$-関数近似のシーケンスを学習する新しいアプローチである、$Q$-Networks (iQN) を反復的に導入する。
iQNがバリューベースおよびアクタークリティカルメソッドでシームレスに利用できるかを示す。
- 参考スコア(独自算出の注目度): 20.870276787316314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Value-based Reinforcement Learning (RL) methods rely on the application of
the Bellman operator, which needs to be approximated from samples. Most
approaches consist of an iterative scheme alternating the application of the
Bellman operator and a subsequent projection step onto a considered function
space. However, we observe that these algorithms can be improved by considering
multiple iterations of the Bellman operator at once. Thus, we introduce
iterated $Q$-Networks (iQN), a novel approach that learns a sequence of
$Q$-function approximations where each $Q$-function serves as the target for
the next one in a chain of consecutive Bellman iterations. We demonstrate that
iQN is theoretically sound and show how it can be seamlessly used in
value-based and actor-critic methods. We empirically demonstrate its advantages
on Atari $2600$ games and in continuous-control MuJoCo environments.
- Abstract(参考訳): 値に基づく強化学習(RL)手法は、サンプルから近似する必要があるベルマン演算子の応用に依存している。
ほとんどのアプローチは、ベルマン作用素の応用を交互に繰り返す反復スキームと、それに続く関数空間への射影ステップからなる。
しかし,ベルマン演算子の複数イテレーションを一度に検討することで,これらのアルゴリズムを改良することができる。
そこで本研究では,連続するベルマン反復の連鎖において,各$Q$-関数が次の目標となるような,$Q$-関数近似の列を学習する新しいアプローチである,反復$Q$-Networks (iQN)を紹介した。
iqnは理論的に健全であり,価値ベースおよびアクタクリティカルな方法でシームレスに使用できることを示す。
Atari 2600ドルのゲームや、MuJoCo環境における利点を実証的に実証した。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。