論文の概要: Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF
- arxiv url: http://arxiv.org/abs/2503.22137v1
- Date: Fri, 28 Mar 2025 04:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.562193
- Title: Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF
- Title(参考訳): RLHFにおける優先最適化のためのシャープ比誘導能動学習
- Authors: Syrine Belakaria, Joshua Kazdan, Charles Marx, Chris Cundy, Willie Neiswanger, Sanmi Koyejo, Barbara E. Engelhardt, Stefano Ermon,
- Abstract要約: 本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。
実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
- 参考スコア(独自算出の注目度): 67.48004037550064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become a cornerstone of the training and alignment pipeline for large language models (LLMs). Recent advances, such as direct preference optimization (DPO), have simplified the preference learning step. However, collecting preference data remains a challenging and costly process, often requiring expert annotation. This cost can be mitigated by carefully selecting the data points presented for annotation. In this work, we propose an active learning approach to efficiently select prompt and preference pairs using a risk assessment strategy based on the Sharpe Ratio. To address the challenge of unknown preferences prior to annotation, our method evaluates the gradients of all potential preference annotations to assess their impact on model updates. These gradient-based evaluations enable risk assessment of data points regardless of the annotation outcome. By leveraging the DPO loss derivations, we derive a closed-form expression for computing these Sharpe ratios on a per-tuple basis, ensuring our approach remains both tractable and computationally efficient. We also introduce two variants of our method, each making different assumptions about prior information. Experimental results demonstrate that our method outperforms the baseline by up to 5% in win rates against the chosen completion with limited human preference data across several language models and real-world datasets.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)のトレーニングおよびアライメントパイプラインの基盤となっている。
直接選好最適化(DPO)などの最近の進歩は、選好学習のステップを単純化している。
しかし、好みのデータを収集することは困難でコストのかかるプロセスであり、しばしば専門家のアノテーションを必要とする。
このコストは、アノテーションに提示されるデータポイントを慎重に選択することで軽減することができる。
本研究では,シャープ比に基づくリスク評価戦略を用いて,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,アノテーションに先行する未知の嗜好の課題に対処するため,潜在的な選好アノテーションの勾配を評価し,モデル更新への影響を評価する。
これらの勾配に基づく評価は、アノテーションの結果に関係なく、データポイントのリスク評価を可能にする。
DPO損失の導出を活用することにより、これらのシャープ比をタプル単位で計算するためのクローズドフォーム式を導出し、我々のアプローチがトラクタブルかつ計算的に効率的であることを保証する。
また,提案手法の2つの変種を導入し,それぞれが事前情報について異なる仮定を行う。
実験結果から,本手法は,複数の言語モデルと実世界のデータセットに限定した人間の嗜好データを用いて,選択された完成度に対して,最大5%の勝利率でベースラインを上回り,性能が向上することが示された。
関連論文リスト
- Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - Preference learning made easy: Everything should be understood through win rate [25.849945888898997]
本研究は、ペアワイズ選好データのサンプリングから始まる選好学習を理解するための枠組みを提案する。
まず、データ分布における嗜好と有病率の両方を尊重する生成モデルの唯一の評価が、勝利率の一形態であることを示す。
次に、選好学習手法を、勝利率最適化(WRO)または非WROとして分析する。
論文 参考訳(メタデータ) (2025-02-14T19:01:34Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。
本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文 参考訳(メタデータ) (2024-07-05T12:05:37Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。