論文の概要: Exploiting Reward Shifting in Value-Based Deep RL
- arxiv url: http://arxiv.org/abs/2209.07288v1
- Date: Thu, 15 Sep 2022 13:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:13:28.721522
- Title: Exploiting Reward Shifting in Value-Based Deep RL
- Title(参考訳): 価値ベース深部RLにおける再帰シフトの爆発
- Authors: Hao Sun, Lei Han, Rui Yang, Xiaoteng Ma, Jian Guo, Bolei Zhou
- Abstract要約: 本稿では,価値に基づくDeep Reinforcement Learningにおける報酬形成の単純かつ普遍的な事例について検討する。
ポジティブな報酬シフトは保守的な搾取につながるが、ネガティブな報酬シフトは好奇心を駆使した探索につながる。
- 参考スコア(独自算出の注目度): 46.98033035313238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the simple yet universally applicable case of reward
shaping in value-based Deep Reinforcement Learning (DRL). We show that reward
shifting in the form of the linear transformation is equivalent to changing the
initialization of the $Q$-function in function approximation. Based on such an
equivalence, we bring the key insight that a positive reward shifting leads to
conservative exploitation, while a negative reward shifting leads to
curiosity-driven exploration. Accordingly, conservative exploitation improves
offline RL value estimation, and optimistic value estimation improves
exploration for online RL. We validate our insight on a range of RL tasks and
show its improvement over baselines: (1) In offline RL, the conservative
exploitation leads to improved performance based on off-the-shelf algorithms;
(2) In online continuous control, multiple value functions with different
shifting constants can be used to tackle the exploration-exploitation dilemma
for better sample efficiency; (3) In discrete control tasks, a negative reward
shifting yields an improvement over the curiosity-based exploration method.
- Abstract(参考訳): 本研究では,価値に基づくDeep Reinforcement Learning(DRL)における報酬形成の単純かつ普遍的な事例について検討する。
線形変換の形での報酬シフトは、関数近似における$Q$-関数の初期化を変更することと等価であることを示す。
このような等価性に基づいて、ポジティブな報酬シフトが保守的な搾取につながり、ネガティブな報酬シフトが好奇心駆動の探索につながるという重要な洞察を与えます。
したがって、保守的利用はオフラインrl値推定を改善し、楽観的価値推定はオンラインrlの探索を改善する。
We validate our insight on a range of RL tasks and show its improvement over baselines: (1) In offline RL, the conservative exploitation leads to improved performance based on off-the-shelf algorithms; (2) In online continuous control, multiple value functions with different shifting constants can be used to tackle the exploration-exploitation dilemma for better sample efficiency; (3) In discrete control tasks, a negative reward shifting yields an improvement over the curiosity-based exploration method.
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - On the Role of Discount Factor in Offline Reinforcement Learning [25.647624787936028]
割引係数である$gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たす。
本稿では、理論解析によるオフラインRLにおける$gamma$の2つの異なる効果について検討する。
その結果, オフラインRLアルゴリズムの性能において, 割引係数が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2022-06-07T15:22:42Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。