論文の概要: Inverse Preference Learning: Preference-based RL without a Reward
Function
- arxiv url: http://arxiv.org/abs/2305.15363v2
- Date: Fri, 24 Nov 2023 22:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:09:21.763113
- Title: Inverse Preference Learning: Preference-based RL without a Reward
Function
- Title(参考訳): 逆選好学習:逆関数を持たない選好ベースRL
- Authors: Joey Hejna, Dorsa Sadigh
- Abstract要約: Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
- 参考スコア(独自算出の注目度): 34.31087304327075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward functions are difficult to design and often hard to align with human
intent. Preference-based Reinforcement Learning (RL) algorithms address these
problems by learning reward functions from human feedback. However, the
majority of preference-based RL methods na\"ively combine supervised reward
models with off-the-shelf RL algorithms. Contemporary approaches have sought to
improve performance and query complexity by using larger and more complex
reward architectures such as transformers. Instead of using highly complex
architectures, we develop a new and parameter-efficient algorithm, Inverse
Preference Learning (IPL), specifically designed for learning from offline
preference data. Our key insight is that for a fixed policy, the $Q$-function
encodes all information about the reward function, effectively making them
interchangeable. Using this insight, we completely eliminate the need for a
learned reward function. Our resulting algorithm is simpler and more
parameter-efficient. Across a suite of continuous control and robotics
benchmarks, IPL attains competitive performance compared to more complex
approaches that leverage transformer-based and non-Markovian reward functions
while having fewer algorithmic hyperparameters and learned network parameters.
Our code is publicly released.
- Abstract(参考訳): リワード関数は設計が難しく、しばしば人間の意図と整合するのは難しい。
優先度に基づく強化学習(RL)アルゴリズムは、人間のフィードバックから報酬関数を学習することでこれらの問題に対処する。
しかし、好みに基づくRL手法の大多数は、教師付き報酬モデルとオフザシェルフRLアルゴリズムを効果的に組み合わせている。
現代のアプローチでは、トランスフォーマーのようなより大きく複雑な報酬アーキテクチャを使うことで、パフォーマンスとクエリの複雑さを改善しようとしている。
高度に複雑なアーキテクチャを使う代わりに、オフラインの選好データから学習するために特別に設計された新しいパラメータ効率の高いアルゴリズムである逆選好学習(ipl)を開発した。
当社の重要な洞察は、固定ポリシーの場合、$q$-functionが報酬関数に関するすべての情報をエンコードし、効果的に交換可能にすることです。
この知見を用いて、学習した報酬関数の必要性を完全に排除する。
得られたアルゴリズムはよりシンプルでパラメータ効率が良い。
連続的な制御とロボットのベンチマークのスイート全体で、IPLはトランスフォーマーベースの報酬関数と非マルコフの報酬関数を活用するより複雑なアプローチと比較して、アルゴリズムのハイパーパラメータを少なくし、ネットワークパラメータを学習する。
私たちのコードは公開されています。
関連論文リスト
- Few-shot In-Context Preference Learning Using Large Language Models [15.84585737510038]
報酬関数の設計は強化学習の中核的な要素である。
報酬を学ぶことは、しばしばタトゥーラ・ラサを学ぶため、非常に非効率である。
In-Context Preference Learning (ICPL) を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。