Fugu-MT 論文翻訳(概要): Iterated $Q$-Network: Beyond the One-Step Bellman Operator

論文の概要: Iterated $Q$-Network: Beyond the One-Step Bellman Operator

arxiv url: http://arxiv.org/abs/2403.02107v1
Date: Mon, 4 Mar 2024 15:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:27:44.484057
Title: Iterated $Q$-Network: Beyond the One-Step Bellman Operator
Title（参考訳）: 反復$Q$-Network: 1ステップのベルマン演算子を超えて
Authors: Th\'eo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo D'Eramo
Abstract要約: 我々は、$Q$-関数近似のシーケンスを学習する新しいアプローチである、$Q$-Networks (iQN) を反復的に導入する。 iQNがバリューベースおよびアクタークリティカルメソッドでシームレスに利用できるかを示す。
参考スコア（独自算出の注目度）: 20.870276787316314
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Value-based Reinforcement Learning (RL) methods rely on the application of the Bellman operator, which needs to be approximated from samples. Most approaches consist of an iterative scheme alternating the application of the Bellman operator and a subsequent projection step onto a considered function space. However, we observe that these algorithms can be improved by considering multiple iterations of the Bellman operator at once. Thus, we introduce iterated $Q$-Networks (iQN), a novel approach that learns a sequence of $Q$-function approximations where each $Q$-function serves as the target for the next one in a chain of consecutive Bellman iterations. We demonstrate that iQN is theoretically sound and show how it can be seamlessly used in value-based and actor-critic methods. We empirically demonstrate its advantages on Atari $2600$ games and in continuous-control MuJoCo environments.
Abstract（参考訳）: 値に基づく強化学習(RL)手法は、サンプルから近似する必要があるベルマン演算子の応用に依存している。ほとんどのアプローチは、ベルマン作用素の応用を交互に繰り返す反復スキームと、それに続く関数空間への射影ステップからなる。しかし,ベルマン演算子の複数イテレーションを一度に検討することで,これらのアルゴリズムを改良することができる。そこで本研究では,連続するベルマン反復の連鎖において,各$Q$-関数が次の目標となるような,$Q$-関数近似の列を学習する新しいアプローチである,反復$Q$-Networks (iQN)を紹介した。 iqnは理論的に健全であり,価値ベースおよびアクタクリティカルな方法でシームレスに使用できることを示す。 Atari 2600ドルのゲームや、MuJoCo環境における利点を実証的に実証した。

関連論文リスト

Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning [47.57615889991631]
連続行動空間の場合、アクター批判法はオンライン強化学習(RL)において広く用いられている。本研究では,ベルマン最適度演算子をアクター批判フレームワークに組み込むことの有効性を検討した。
論文参考訳（メタデータ） (2025-06-06T10:46:20Z)
Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文参考訳（メタデータ） (2024-07-31T00:43:51Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文参考訳（メタデータ） (2023-10-25T22:50:09Z)
On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文参考訳（メタデータ） (2023-08-28T22:29:16Z)
Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文参考訳（メタデータ） (2023-06-05T13:38:14Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。ゼロ次監視政策改善(ZOSPI)を提案する。 ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文参考訳（メタデータ） (2020-06-11T16:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。