論文の概要: Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning
- arxiv url: http://arxiv.org/abs/2502.11284v1
- Date: Sun, 16 Feb 2025 21:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:50.149419
- Title: Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning
- Title(参考訳): 予算のバランスをとる - 監督と優先に基づくファインタニングのトレードオフを理解する
- Authors: Mohit Raghavendra, Junmo Kang, Alan Ritter,
- Abstract要約: 大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
- 参考スコア(独自算出の注目度): 18.381178799923514
- License:
- Abstract: Post-training of Large Language Models often involves a pipeline of Supervised Finetuning (SFT) followed by Preference Finetuning (PFT) using methods like Direct Preference Optimization. Both stages require annotated data that are very different in structure and costs. We study how to optimally allocate a fixed training data budget between the two stages, through extensive experiments spanning four diverse tasks, multiple model sizes and various data annotation costs. Our findings reveal that just SFT on the base model dominates performance in low-data regimes ($<1,000$ annotated examples). With larger data-budgets, we observe that a combination of SFT and PFT, often with increasing portions allocated towards preference data yields optimal performance. However, completely eliminating SFT and running PFT directly on the base model yields suboptimal performance, described as the cold start problem on tasks like mathematics. We observe that this is due to the distribution shift arising from using DPO directly on the base model to elicit step-by-step reasoning. This limitation can be effectively addressed by allocating even a small portion ($<10$%) of the budget to SFT first, resulting in performance improvements of $15-20$% on analytical benchmarks like GSM8k. These results provide actionable insights for researchers and practitioners optimizing model development under budget constraints, where high-quality data curation often represents a significant portion of the total costs of model development.
- Abstract(参考訳): 大規模言語モデルのポストトレーニングでは、しばしばスーパービジョンファインタニング(SFT)のパイプラインと、直接優先度最適化(英語版)のような手法を用いた優先度ファインタニング(PFT)が続く。
どちらの段階も、構造とコストにおいて非常に異なる注釈付きデータを必要とする。
我々は,4つのタスク,複数のモデルサイズ,さまざまなデータアノテーションコストにまたがる広範囲な実験を通じて,この2つの段階間で固定的なトレーニングデータ予算を最適に割り当てる方法について検討した。
その結果,ベースモデル上のSFTのみが低データレシエーション(<1,000$アノテーション付き例)のパフォーマンスを優位にしていることがわかった。
より大きなデータ予算で、SFTとPFTの組み合わせは、しばしば好みデータに割り当てられる部分が増えて、最適な性能が得られることを観察する。
しかし、SFTを完全に排除し、ベースモデル上で直接PFTを実行すると、数学のようなタスクにおけるコールドスタート問題として記述された準最適性能が得られる。
これは,DPOを直接ベースモデル上で使用することで,ステップバイステップの推論を導出する分布シフトに起因すると考えられる。
この制限は、予算のごく一部(<10$%)をまずSFTに割り当てることで効果的に対処できる。
これらの結果は、高品質なデータキュレーションがモデル開発全体のコストのかなりの部分を占める、予算制約の下でモデル開発を最適化する研究者や実践者にとって、実用的な洞察を提供する。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization [35.36615140853107]
Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。
TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Scaled Prompt-Tuning for Few-Shot Natural Language Generation [9.399840807973545]
大きな言語モデル(LLM)は、より強力な言語理解と生成能力を示す。
下流タスクにおける微調整LDMのメモリ需要と計算コストは無視できない。
本稿では,従来のPTよりも優れた性能と一般化能力を持つスケールド・プロンプト・チューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2023-09-13T07:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。