論文の概要: From Reward-Free Representations to Preferences: Rethinking Offline Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.01123v1
- Date: Sun, 31 May 2026 09:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.261888
- Title: From Reward-Free Representations to Preferences: Rethinking Offline Preference-Based Reinforcement Learning
- Title(参考訳): Reward-free RepresentationsからPreferences:Rethinking Offline Preference-based Reinforcement Learning
- Authors: Jun-Jie Yang, Chia-Heng Hsu, Kui-Yuan Chen, Ping-Chun Hsieh,
- Abstract要約: 嗜好に基づく強化学習は、明確な報酬工学を避ける。
報酬のないオフラインデータから遅延後継尺度表現を学習する新しいトレーニングフレームワークを提案する。
提案手法は,オフラインPbRLベースラインよりも優先効率が高いことを示す。
- 参考スコア(独自算出の注目度): 19.663565323513577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) avoids explicit reward engineering by learning from pairwise human preference feedback. Existing offline PbRL methods typically follow a two-stage pipeline, first learning a reward or preference model from labeled preferences and then performing offline RL on unlabeled data. We revisit offline PbRL through the lens of reward-free representation learning (RFRL) from the zero-shot RL literature, and propose a new training framework that first learns latent successor-measure representations from reward-free offline data, followed by contrastive search and fine-tuning using preference data. Through extensive experiments and ablations, we show that our method achieves superior preference efficiency over offline PbRL baselines. This work is the first to connect RFRL with PbRL, highlighting its potential as a feedback-efficient solution. Our code is publicly available at https://github.com/rl-bandits-lab/FB-PbRL.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、ペアワイズな人間の嗜好フィードバックから学習することで、明確な報酬工学を避ける。
既存のオフラインPbRLメソッドは通常、2段階のパイプラインに従っており、まずラベル付けされた好みから報酬や好みのモデルを学習し、ラベル付けされていないデータに対してオフラインRLを実行する。
我々は、ゼロショットRL文献から、報酬なし表現学習(RFRL)のレンズを通してオフラインPbRLを再検討し、報酬なしオフラインデータから遅延後継測度表現を学習し、次に、優先データを用いたコントラスト検索と微調整を行う新しいトレーニングフレームワークを提案する。
実験により,本手法はオフラインPbRLベースラインよりも優先効率がよいことを示す。
この研究は、RFRLとPbRLを接続する最初のものであり、フィードバック効率のよいソリューションとしての可能性を強調している。
私たちのコードはhttps://github.com/rl-bandits-lab/FB-PbRL.comで公開されています。
関連論文リスト
- Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。
LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。
実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文 参考訳(メタデータ) (2024-08-08T03:18:42Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Binary Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning [5.480108613013526]
本稿では、報酬ベースのオフラインRLと優先ベースのオフラインRLのギャップを埋める一般的なフレームワークを提案する。
我々の重要な洞察は、好みフィードバックを2進報酬ラベリング(BRL)を通してスカラー報酬に変換することである。
我々は、標準D4RLベンチマークに基づいて、好みデータセットに基づいて、我々のフレームワークを実証的にテストする。
論文 参考訳(メタデータ) (2024-06-14T23:40:42Z) - RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences [23.414135977983953]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文 参考訳(メタデータ) (2024-02-27T07:03:25Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。