論文の概要: Discriminative Finetuning of Generative Large Language Models without Reward Models and Preference Data
- arxiv url: http://arxiv.org/abs/2502.18679v1
- Date: Tue, 25 Feb 2025 22:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:04.781068
- Title: Discriminative Finetuning of Generative Large Language Models without Reward Models and Preference Data
- Title(参考訳): 回帰モデルと選好データのない生成型大言語モデルの識別的微調整
- Authors: Siqi Guo, Ilgee Hong, Vicente Balmaseda, Tuo Zhao, Tianbao Yang,
- Abstract要約: Supervised Fine-tuning (SFT) と Prefery Optimization (PO) は、事前訓練された大規模言語モデル(LLM)を改善するための標準となっている。
本稿では、嗜好データを必要としない新しいアプローチであるDFTを紹介する。
i) 答えの識別可能性を明確にモデル化した微調整LDMの識別確率フレームワーク、(ii) この識別確率を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範囲な実験、そして、SFTよりも優れた性能を達成し、そうでなければ同等である。
- 参考スコア(独自算出の注目度): 61.463946150106054
- License:
- Abstract: Supervised fine-tuning (SFT) followed by preference optimization (PO) denoted by SFT$\rightarrow$PO has become the standard for improving pretrained large language models (LLMs), with PO demonstrating significant performance gains. However, PO methods rely on either human-labeled preference data or a strong reward model to generate preference data. Can we fine-tune LLMs without preference data or reward models while achieving competitive performance to SFT$\rightarrow$PO? We address this question by introducing Discriminative Fine-Tuning (DFT), a novel approach that eliminates the need for preference data. Unlike SFT, which employs a generative approach and overlooks negative data, DFT adopts a discriminative paradigm that that increases the probability of positive answers while suppressing potentially negative ones, shifting from token prediction to data prediction. Our contributions include: (i) a discriminative probabilistic framework for fine-tuning LLMs by explicitly modeling the discriminative likelihood of an answer among all possible outputs given an input; (ii) efficient algorithms to optimize this discriminative likelihood; and (iii) extensive experiments demonstrating DFT's effectiveness, achieving performance better than SFT and comparable to if not better than SFT$\rightarrow$PO. The code can be found at https://github.com/PenGuln/DFT.
- Abstract(参考訳): Supervised Fine-tuning (SFT) に続いて SFT$\rightarrow$PO で表される選好最適化 (PO) が事前訓練された大規模言語モデル (LLM) の改善の標準となり、PO は大幅な性能向上を示した。
しかし、PO法は好みデータを生成するために、人間ラベル付き嗜好データか強い報奨モデルのいずれかに依存している。
SFT$\rightarrow$POとの競合性能を達成しながら、好みデータや報酬モデルなしでLLMを微調整できるだろうか?
本稿では, 選好データの必要性を解消する新たなアプローチであるDFTを導入することにより, この問題に対処する。
生成的アプローチを採用し、負のデータを見落としているSFTとは異なり、DFTは正の回答の確率を高めながら潜在的に負の回答を抑え、トークン予測からデータ予測へとシフトする差別的パラダイムを採用する。
コントリビューションには以下のものがある。
一 入力されたすべての可能な出力のうちの解答の判別可能性を明確にモデル化し、微調整LDMの判別確率の枠組み
(二)この識別可能性の最適化のための効率的なアルゴリズム、及び
3) DFTの有効性を実証し, SFTより優れた性能を示し, SFT$\rightarrow$POに匹敵する性能を示した。
コードはhttps://github.com/PenGuln/DFTにある。
関連論文リスト
- Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。