論文の概要: Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.00236v1
- Date: Sat, 1 Jan 2022 19:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 13:54:57.889155
- Title: Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement
Learning
- Title(参考訳): オペレータdeep q-learning: 強化学習におけるゼロショット報酬伝達
- Authors: Ziyang Tang, Yihao Feng, Qiang Liu
- Abstract要約: 強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。
標準RLアルゴリズムは単一の報酬関数にのみ適用でき、すぐに見つからない報酬関数に適応できない。
我々は、報酬関数から値関数にマップする演算子を直接近似できる強化学習の一般的な演算子視点を提唱する。
- 参考スコア(独自算出の注目度): 20.12564350629561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has drawn increasing interests in recent years
due to its tremendous success in various applications. However, standard RL
algorithms can only be applied for single reward function, and cannot adapt to
an unseen reward function quickly. In this paper, we advocate a general
operator view of reinforcement learning, which enables us to directly
approximate the operator that maps from reward function to value function. The
benefit of learning the operator is that we can incorporate any new reward
function as input and attain its corresponding value function in a zero-shot
manner. To approximate this special type of operator, we design a number of
novel operator neural network architectures based on its theoretical
properties. Our design of operator networks outperform the existing methods and
the standard design of general purpose operator network, and we demonstrate the
benefit of our operator deep Q-learning framework in several tasks including
reward transferring for offline policy evaluation (OPE) and reward transferring
for offline policy optimization in a range of tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。
しかし、標準のrlアルゴリズムは単一の報酬関数にしか適用できず、見えない報酬関数に素早く適応することはできない。
本稿では,報酬関数から値関数への写像を行う演算子を直接近似できる強化学習の一般演算子視点を提案する。
演算子を学習する利点は、任意の新しい報酬関数を入力として組み込んで、対応する値関数をゼロショットで達成できる点にある。
この特殊なタイプの演算子を近似するために、その理論的性質に基づいて多くの新しい演算子ニューラルネットワークアーキテクチャを設計する。
演算子ネットワークの設計は,既存の手法や汎用演算子ネットワークの標準設計よりも優れており,オフラインポリシ評価(OPE)の報酬転送や,オフラインポリシ最適化の報酬転送など,さまざまなタスクにおいて,演算子による深層Q-ラーニングフレームワークのメリットを実証している。
関連論文リスト
- A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。
i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文 参考訳(メタデータ) (2024-03-04T15:07:33Z) - Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings [107.1837163643886]
本稿では、このゼロショットRL問題に対する汎用的でスケーラブルな解として、関数型報酬符号化(FRE)を提案する。
我々の主な考え方は、任意のタスクの関数表現を、状態逆サンプルを符号化することで学習することである。
多様なランダムな非教師付き報酬関数で訓練されたFREエージェントが、新しいタスクを解くために一般化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-02-27T01:59:02Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。