論文の概要: Hindsight Preference Learning for Offline Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.04451v1
- Date: Fri, 5 Jul 2024 12:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:40:23.401911
- Title: Hindsight Preference Learning for Offline Preference-based Reinforcement Learning
- Title(参考訳): オフライン選好に基づく強化学習のための隠れ選好学習
- Authors: Chen-Xiao Gao, Shengjun Fang, Chenjun Xiao, Yang Yu, Zongzhang Zhang,
- Abstract要約: オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。
本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
- 参考スコア(独自算出の注目度): 22.870967604847458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline preference-based reinforcement learning (RL), which focuses on optimizing policies using human preferences between pairs of trajectory segments selected from an offline dataset, has emerged as a practical avenue for RL applications. Existing works rely on extracting step-wise reward signals from trajectory-wise preference annotations, assuming that preferences correlate with the cumulative Markovian rewards. However, such methods fail to capture the holistic perspective of data annotation: Humans often assess the desirability of a sequence of actions by considering the overall outcome rather than the immediate rewards. To address this challenge, we propose to model human preferences using rewards conditioned on future outcomes of the trajectory segments, i.e. the hindsight information. For downstream RL optimization, the reward of each step is calculated by marginalizing over possible future outcomes, the distribution of which is approximated by a variational auto-encoder trained using the offline dataset. Our proposed method, Hindsight Preference Learning (HPL), can facilitate credit assignment by taking full advantage of vast trajectory data available in massive unlabeled datasets. Comprehensive empirical studies demonstrate the benefits of HPL in delivering robust and advantageous rewards across various domains. Our code is publicly released at https://github.com/typoverflow/WiseRL.
- Abstract(参考訳): オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を利用してポリシーを最適化することに焦点を当て、RLアプリケーションのための実用的な方法として登場した。
既存の研究は、累積的マルコフ報酬と相関していると仮定して、軌道的嗜好アノテーションから段階的報酬信号の抽出に依存している。
しかしながら、このような手法は、データアノテーションの全体論的な視点を捉えることに失敗する: 人間は、即時報酬ではなく、全体的な結果を考慮することで、一連のアクションの望ましさを評価する。
この課題に対処するために,我々は,後見情報などの軌跡セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化することを提案する。
下流のRL最適化では、各ステップの報酬は、将来的な結果に対する限界化によって計算され、その分布はオフラインデータセットを用いて訓練された変分オートエンコーダによって近似される。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
総合的な実証研究は、様々な領域で堅牢で有利な報酬を提供する上で、HPLの利点を実証している。
私たちのコードはhttps://github.com/typoverflow/WiseRL.comで公開されています。
関連論文リスト
- Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。