論文の概要: HPS: Hard Preference Sampling for Human Preference Alignment
- arxiv url: http://arxiv.org/abs/2502.14400v1
- Date: Thu, 20 Feb 2025 09:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:41.531086
- Title: HPS: Hard Preference Sampling for Human Preference Alignment
- Title(参考訳): HPS: 人間の選好アライメントのためのハードな選好サンプリング
- Authors: Xiandong Zou, Wanyu Lin, Yuchen Li, Pan Zhou,
- Abstract要約: HPS(Hard Preference Sampling)は、堅牢で効率的な人間の選好アライメントのための新しいフレームワークである。
HPSはアライメント品質を維持しながら計算オーバーヘッドを低減する。
HH-RLHFとPKU-Safetyデータセットの実験はHPSの有効性を検証する。
- 参考スコア(独自算出の注目度): 55.113864906702865
- License:
- Abstract: Aligning Large Language Model (LLM) responses with human preferences is vital for building safe and controllable AI systems. While preference optimization methods based on Plackett-Luce (PL) and Bradley-Terry (BT) models have shown promise, they face challenges such as poor handling of harmful content, inefficient use of dispreferred responses, and, specifically for PL, high computational costs. To address these issues, we propose Hard Preference Sampling (HPS), a novel framework for robust and efficient human preference alignment. HPS introduces a training loss that prioritizes the most preferred response while rejecting all dispreferred and harmful ones. It emphasizes "hard" dispreferred responses--those closely resembling preferred ones--to enhance the model's rejection capabilities. By leveraging a single-sample Monte Carlo sampling strategy, HPS reduces computational overhead while maintaining alignment quality. Theoretically, HPS improves sample efficiency over existing PL methods and maximizes the reward margin between preferred and dispreferred responses, ensuring clearer distinctions. Experiments on HH-RLHF and PKU-Safety datasets validate HPS's effectiveness, achieving comparable BLEU and reward scores while greatly improving reward margins and thus reducing harmful content generation.
- Abstract(参考訳): 安全で制御可能なAIシステムを構築するためには、人間の好みによるLLM(Large Language Model)応答の調整が不可欠である。
Plackett-Luce (PL) モデルとBradley-Terry (BT) モデルに基づく選好最適化手法は有望であるが、有害なコンテンツの扱いの貧弱、非推奨応答の非効率な使用、特にPLでは計算コストが高いといった課題に直面している。
これらの課題に対処するため、我々は、堅牢で効率的な人間の嗜好アライメントのための新しいフレームワークであるHPS(Hard Preference Smpling)を提案する。
HPSは、好ましくない、有害な全ての反応を拒絶しながら、最も好まれる反応を優先する訓練損失を導入する。
それは、モデルの拒絶機能を強化するために、"ハード"な非推奨の応答(これらは好まれる応答によく似ている)を強調している。
単サンプルのモンテカルロサンプリング戦略を利用することで、HPSはアライメント品質を維持しながら計算オーバーヘッドを低減する。
理論的には、HPSは既存のPL法よりもサンプル効率を向上し、好ましくない反応と好ましくない反応の報酬マージンを最大化し、より明確な区別を確保する。
HH-RLHFとPKU-Safetyデータセットの実験はHPSの有効性を検証し、BLEUと報酬スコアを同等に達成し、報酬マージンを大幅に改善し、有害なコンテンツ生成を減らす。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。