論文の概要: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2506.09428v2
- Date: Sat, 28 Jun 2025 02:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.64455
- Title: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting
- Title(参考訳): 大規模言語モデルのための改良された微調整による破滅的フォーミングの軽減
- Authors: Fei Ding, Baiqiao Wang,
- Abstract要約: Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
- 参考スコア(独自算出の注目度): 1.5595148909011116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) is a critical step for enhancing the instruction-following capabilities of Large Language Models (LLMs) and adapting them to specialized domains. However, SFT often leads to a degradation of the model's general abilities, a phenomenon known as catastrophic forgetting. This problem is exacerbated when third-party practitioners fine-tune open-source models, as the original SFT data is typically not available. To address this challenge, we propose a novel and cost-effective SFT method that effectively mitigates catastrophic forgetting without requiring access to the original SFT data. Our approach first reconstructs the likely instruction distribution of the base model. It then employs a multi-model generation and filtering pipeline to synthesize a high-quality general-purpose dataset. This synthetic dataset is mixed with new, domain-specific data for fine-tuning. Experimental results show that our method not only preserves the model's capabilities in general domains but also improves task-specific performance, outperforming baselines that use publicly available SFT datasets.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令フォロー機能を強化し、それを特殊なドメインに適用するための重要なステップである。
しかし、SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
この問題は、オリジナルのSFTデータが通常利用できないため、サードパーティの実践者が微調整のオープンソースモデルを使用する場合、さらに悪化する。
この課題に対処するために,本研究では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新規で費用対効果の高いSFT手法を提案する。
提案手法はまず,まず基本モデルの命令分布を再構成する。
次に、高品質な汎用データセットを合成するために、マルチモデル生成とフィルタリングパイプラインを使用する。
この合成データセットは、微調整のための新しいドメイン固有のデータと混合される。
実験結果から,本手法は汎用ドメインにおけるモデル機能を保持するだけでなく,タスク固有の性能も向上し,公開されているSFTデータセットを用いたベースラインよりも優れることがわかった。
関連論文リスト
- Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging [11.223074654129915]
大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。
本稿では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を軽減することを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:44:31Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。