論文の概要: REFA: Reference Free Alignment for multi-preference optimization
- arxiv url: http://arxiv.org/abs/2412.16378v3
- Date: Mon, 24 Feb 2025 07:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:51.798775
- Title: REFA: Reference Free Alignment for multi-preference optimization
- Title(参考訳): REFA:マルチ参照最適化のための参照自由アライメント
- Authors: Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan,
- Abstract要約: 参照なしアライメントメソッドのファミリである$textbfREFA$を紹介します。
我々の手法は偏差に基づく重み付けを統合して高品質な応答を強調する。
REFAは、新しい$textbf26.6%$Longth-Controlled Win Rate (LC-WR)と$textbf24.2%$Win Rate (WR)を達成する
- 参考スコア(独自算出の注目度): 16.230186347702737
- License:
- Abstract: We introduce $\textbf{REFA}$, a family of reference-free alignment methods that optimize over multiple user preferences while enforcing fine-grained length control. Our approach integrates deviation-based weighting to emphasize high-quality responses, length normalization to prevent trivial short-response solutions, and an EOS-probability regularizer to mitigate dataset-induced brevity biases. Theoretically, we show that under the Uncertainty Reduction with Sequence Length Assertion (URSLA) framework, naive length normalization can still incentivize length-based shortcuts. In contrast, REFA corrects these subtle incentives, guiding models toward genuinely more informative and higher-quality outputs. Empirically, REFA achieves a new $\textbf{state-of-the-art}$ among reference-free alignment methods, generating richer responses that align more closely with human preferences. Notably, REFA improves performance on the AlpacaEval2 benchmark, achieving a $\textbf{26.6%}$ Length-Controlled Win Rate (LC-WR) and $\textbf{24.2%}$ Win Rate (WR).
- Abstract(参考訳): 我々は、複数のユーザの好みを最適化する参照不要アライメントメソッドのファミリである$\textbf{REFA}$を導入し、きめ細かい長さ制御を行う。
提案手法では, 偏差重み付けによる高次応答の強調, 自明な短応答解の回避のための長さ正規化, および, データセットによるフレビティバイアスを軽減するためのEOS確率正規化器を統合した。
理論的には、シーケンス長付加による不確実性低減(URSLA)の枠組みでは、ナイーブ長正規化は長さベースのショートカットをインセンティブにすることができる。
対照的に、REFAはこれらの微妙なインセンティブを修正し、真に情報的で高品質なアウトプットに向けてモデルを導く。
実証的に、REFAは参照なしアライメントメソッドの中で新しい$\textbf{state-of-the-art}$を達成する。
特に、REFAはAlpacaEval2ベンチマークのパフォーマンスを改善し、$\textbf{26.6%}$ Length-Controlled Win Rate (LC-WR)および$\textbf{24.2%}$ Win Rate (WR)を達成する。
関連論文リスト
- Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。
変分推論の観点からRLHFの単純化を提案する。
我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-16T07:22:00Z) - Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
本稿では、2人のプレーヤー間の非対称ゲームとしてアライメントをキャストする一般オープンエンドなRLHFフレームワークを提案する。
Asymmetric Self-Play (eva) によるアライメントの進化(Evolving Alignment)というこのフレームワークは、既存のRLHFアルゴリズムを拡張性のあるアライメントに利用できるシンプルで効率的なアプローチをもたらす。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。