論文の概要: Optimal Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.10445v2
- Date: Sat, 6 Jul 2024 20:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:10:12.842579
- Title: Optimal Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning
- Title(参考訳): 最適リワードラベリング: オフライン選好とリワードベース強化学習のブリッジング
- Authors: Yinglun Xu, David Zhu, Rohan Gumaste, Gagandeep Singh,
- Abstract要約: 本稿では,オフラインRLのリッチな理解を報酬ベースから嗜好ベースに伝達するフレームワークを提案する。
私たちのキーとなる洞察は、最適報酬ラベリング(ORL)による選好フィードバックをスカラー報酬に変換することです。
我々は、標準D4RLベンチマークに基づいて、好みのデータセットに基づいて、我々のフレームワークを実証的にテストする。
- 参考スコア(独自算出の注目度): 5.480108613013526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning has become one of the most practical RL settings. A recent success story has been RLHF, offline preference-based RL (PBRL) with preference from humans. However, most existing works on offline RL focus on the standard setting with scalar reward feedback. It remains unknown how to universally transfer the existing rich understanding of offline RL from the reward-based to the preference-based setting. In this work, we propose a general framework to bridge this gap. Our key insight is transforming preference feedback to scalar rewards via optimal reward labeling (ORL), and then any reward-based offline RL algorithms can be applied to the dataset with the reward labels. We theoretically show the connection between several recent PBRL techniques and our framework combined with specific offline RL algorithms in terms of how they utilize the preference signals. By combining reward labeling with different algorithms, our framework can lead to new and potentially more efficient offline PBRL algorithms. We empirically test our framework on preference datasets based on the standard D4RL benchmark. When combined with a variety of efficient reward-based offline RL algorithms, the learning result achieved under our framework is comparable to training the same algorithm on the dataset with actual rewards in many cases and better than the recent PBRL baselines in most cases.
- Abstract(参考訳): オフライン強化学習は、最も実践的なRL設定の一つとなっている。
最近の成功談はRLHFで、人間の好みによるオフラインの好みに基づくRL(PBRL)である。
しかしながら、オフラインRLに関する既存の作業のほとんどは、スカラー報酬フィードバックによる標準設定に重点を置いている。
既存のオフラインRLのリッチな理解を報酬ベースから優先ベースの設定へ普遍的に移行する方法は、まだ分かっていない。
本研究では,このギャップを埋めるための一般的な枠組みを提案する。
我々の重要な洞察は、好みのフィードバックを最適報酬ラベル(ORL)によってスカラー報酬に変換し、任意の報酬ベースのオフラインRLアルゴリズムを報酬ラベル付きデータセットに適用できることです。
理論的には、最近のPBRL技術と我々のフレームワークと特定のオフラインRLアルゴリズムとの接続を、優先信号をどのように利用するかという点で示す。
報酬ラベルと異なるアルゴリズムを組み合わせることで、我々のフレームワークは新しく、より効率的なオフラインPBRLアルゴリズムを生み出すことができる。
我々は、標準D4RLベンチマークに基づいて、好みのデータセットに基づいて、我々のフレームワークを実証的にテストする。
様々な効率的な報酬ベースのオフラインRLアルゴリズムと組み合わせると、我々のフレームワークで得られた学習結果は、データセット上で同じアルゴリズムをトレーニングするのに匹敵するものであり、多くの場合、実際の報酬と、最近のPBRLベースラインよりも優れている。
関連論文リスト
- Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。
LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。
実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文 参考訳(メタデータ) (2024-08-08T03:18:42Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Is RLHF More Difficult than Standard RL? [31.972393805014903]
ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。
理論的には、幅広い選好モデルに対して、我々は、報酬に基づくRLのアルゴリズムと技法を直接的に解き、少ないか、余分なコストで解決できることを証明している。
論文 参考訳(メタデータ) (2023-06-25T03:18:15Z) - Improving Offline RL by Blending Heuristics [33.810026421228635]
Heuristic Blendingは、値ブートストラップに基づくオフラインRLアルゴリズムの性能を改善する。
HubLは、4つの最先端ブートストラップベースのオフラインRLアルゴリズムのポリシー品質を一貫して改善する。
論文 参考訳(メタデータ) (2023-06-01T03:36:06Z) - Optimal Transport for Offline Imitation Learning [31.218468923400373]
オフライン強化学習(RL)は、実環境と対話することなく、優れた意思決定ポリシーを学習するための有望なフレームワークである。
オフライントラジェクトリに報酬を割り当てるアルゴリズムであるOptimal Transport Reward labeling (OTR)を導入する。
単一実演によるOTRは、オフラインRLの性能と地道的な報酬とを一貫して一致させることができることを示す。
論文 参考訳(メタデータ) (2023-03-24T12:45:42Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。