論文の概要: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2506.09428v1
- Date: Wed, 11 Jun 2025 06:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.579954
- Title: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting
- Title(参考訳): 大規模言語モデルのための改良された微調整による破滅的フォーミングの軽減
- Authors: Fei Ding, Baiqiao Wang,
- Abstract要約: SFTデータにアクセスせずに破滅的忘れを効果的に抑制できる新しい,コスト効率のよいスーパーバイザードファインチューニング法を提案する。
実験結果から,本手法はタスク固有性能を改善しつつ,一般領域での一般化能力を保っていることが示された。
- 参考スコア(独自算出の注目度): 1.5595148909011116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT), while enhancing large language models(LLMs)' instruction-following capabilities and domain-specific task adaptability, often diminishes their general capabilities. Moreover, due to the inaccessibility of original pre-training data, catastrophic forgetting tends to be exacerbated when third-party practitioners implement SFT on open-sourced models. To address this challenge, we propose a novel, more cost-effective SFT method which could effectively reduce the risk of catastrophic forgetting without access to original SFT data. Our approach begins by reconstructing the likely SFT instruction distribution of the base model, followed by a multi-model screening process to select optimal data, which is then mixed with new data for SFT. Experimental results demonstrate that our method preserves generalization capabilities in general domains while improving task-specific performance.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)の命令追従能力とドメイン固有のタスク適応性を向上する一方で、一般的な能力を低下させる。
さらに、オリジナルの事前学習データにアクセスできないため、サードパーティの実践者がオープンソースモデルにSFTを実装すると、破滅的な忘れがさらに悪化する傾向にある。
この課題に対処するために,従来のSFTデータにアクセスすることなく,破滅的な忘れ込みのリスクを効果的に低減できる,よりコスト効率の良いSFT手法を提案する。
提案手法は,まずベースモデルのSFT命令分布を再構成し,次に最適なデータを選択するためのマルチモデルスクリーニング処理を行い,SFTの新しいデータと混合する。
実験結果から,本手法はタスク固有性能を改善しつつ,一般領域での一般化能力を保っていることが示された。
関連論文リスト
- Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging [11.223074654129915]
大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。
本稿では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を軽減することを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:44:31Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。