論文の概要: FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings
- arxiv url: http://arxiv.org/abs/2501.06645v1
- Date: Sat, 11 Jan 2025 21:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:01.621869
- Title: FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings
- Title(参考訳): FocalPO: 正しい優先度ランキングに注目して、優先順位の最適化を促進する
- Authors: Tong Liu, Xiao Yu, Wenxuan Zhou, Jindong Gu, Volker Tresp,
- Abstract要約: 我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
- 参考スコア(独自算出の注目度): 40.605411087380226
- License:
- Abstract: Efficient preference optimization algorithms such as Direct Preference Optimization (DPO) have become a popular approach in aligning large language models (LLMs) with human preferences. These algorithms implicitly treat the LLM as a reward model, and focus on training it to correct misranked preference pairs. However, recent work~\citep{chen2024preference} empirically finds that DPO training \textit{rarely improves these misranked preference pairs}, despite its gradient emphasizing on these cases. We introduce FocalPO, a DPO variant that instead \textit{down-weighs} misranked preference pairs and prioritizes enhancing the model's understanding of pairs that it can already rank correctly. Inspired by Focal Loss used in vision tasks, FocalPO achieves this by adding a modulating factor to dynamically scale DPO loss. Our experiment demonstrates that FocalPO surpasses DPO and its variants on popular benchmarks like Alpaca Eval 2.0 using Mistral-Base-7B and Llama-3-Instruct-8B. Additionally, we empirically reveals how FocalPO affects training on correct and incorrect sample groups, further underscoring its effectiveness.
- Abstract(参考訳): 直接選好最適化(DPO)のような効率的な選好最適化アルゴリズムは、大規模言語モデル(LLM)と人間の選好の整合において一般的なアプローチとなっている。
これらのアルゴリズムは、LLMを報酬モデルとして暗黙的に扱い、誤選好ペアの修正に重点を置いている。
しかし、最近の研究から、DPO トレーニング \textit{rarely はこれらのケースの勾配が強調されているにもかかわらず、これらの不正な選好ペアを改善していることが実証的に判明した。
代わりに、textit{down-weighs} という DPO の変種である FocalPO を導入し、モデルが既に正しくランク付けできるようなペアの理解を高めることを優先する。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
我々の実験は、Mistral-Base-7B と Llama-3-Instruct-8B を用いて、Alpaca Eval 2.0 のような一般的なベンチマークで、FocalPO が DPO とその変種を上回ることを示した。
さらに,FocalPOが正誤サンプル群のトレーニングにどのように影響するかを実証的に明らかにし,その効果を裏付ける。
関連論文リスト
- Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective [22.248134630764497]
ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。
我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
論文 参考訳(メタデータ) (2025-02-20T07:53:11Z) - AlphaPO - Reward shape matters for LLM alignment [8.688476316386176]
textbfAlphaPOは、標準的なログ報酬以外の報酬関数の形状を変えるのに役立つ新しいDAAである。
最高のパフォーマンスを持つDAAの1つであるSimPOと比較して、AlphaPOはアライメント性能が7%から10%向上した。
論文 参考訳(メタデータ) (2025-01-07T15:46:42Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - MallowsPO: Fine-Tune Your LLM with Preference Dispersions [9.697663437292848]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習を改善するための一般的なアプローチとして現れている。
Mallowsの選好ランク理論に触発されて、我々は新しいアプローチであるMallowsPOを開発した。
このアプローチの際立った特徴は、人選好のプロンプトへの分散を反映する分散指標である。
論文 参考訳(メタデータ) (2024-05-23T18:01:11Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。