論文の概要: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2506.09428v2
- Date: Sat, 28 Jun 2025 02:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.64455
- Title: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting
- Title(参考訳): 大規模言語モデルのための改良された微調整による破滅的フォーミングの軽減
- Authors: Fei Ding, Baiqiao Wang,
- Abstract要約: Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
- 参考スコア(独自算出の注目度): 1.5595148909011116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) is a critical step for enhancing the instruction-following capabilities of Large Language Models (LLMs) and adapting them to specialized domains. However, SFT often leads to a degradation of the model's general abilities, a phenomenon known as catastrophic forgetting. This problem is exacerbated when third-party practitioners fine-tune open-source models, as the original SFT data is typically not available. To address this challenge, we propose a novel and cost-effective SFT method that effectively mitigates catastrophic forgetting without requiring access to the original SFT data. Our approach first reconstructs the likely instruction distribution of the base model. It then employs a multi-model generation and filtering pipeline to synthesize a high-quality general-purpose dataset. This synthetic dataset is mixed with new, domain-specific data for fine-tuning. Experimental results show that our method not only preserves the model's capabilities in general domains but also improves task-specific performance, outperforming baselines that use publicly available SFT datasets.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令フォロー機能を強化し、それを特殊なドメインに適用するための重要なステップである。
しかし、SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
この問題は、オリジナルのSFTデータが通常利用できないため、サードパーティの実践者が微調整のオープンソースモデルを使用する場合、さらに悪化する。
この課題に対処するために,本研究では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新規で費用対効果の高いSFT手法を提案する。
提案手法はまず,まず基本モデルの命令分布を再構成する。
次に、高品質な汎用データセットを合成するために、マルチモデル生成とフィルタリングパイプラインを使用する。
この合成データセットは、微調整のための新しいドメイン固有のデータと混合される。
実験結果から,本手法は汎用ドメインにおけるモデル機能を保持するだけでなく,タスク固有の性能も向上し,公開されているSFTデータセットを用いたベースラインよりも優れることがわかった。
関連論文リスト
- On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Differentiation-Based Extraction of Proprietary Data from Fine-Tuned LLMs [13.835835256858653]
本稿では,Supervised Fine-Tuning(SFT)データセットからデータを抽出する際の重要な研究課題について考察する。
我々は、微分データ抽出(DDE)と呼ばれる、SFTモデルに特化して設計された新しい抽出法を開発した。
以上の結果から,DDEはすべての攻撃設定において,既存の抽出ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-20T02:43:36Z) - Minifinetuning: Low-Data Generation Domain Adaptation through Corrective Self-Distillation [48.52666201053625]
Minifinetuningは、低データ設定におけるオーバーフィッティングによるデジェネレーションの効果を低減する。
MFTは標準的な微調整よりも2~10倍の専門化・一般化比を示す。
論文 参考訳(メタデータ) (2025-05-30T01:54:12Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery [11.20326903218271]
インストラクションチューニングなどのポストトレーニング技術は、一般的にモデル性能の回復に使用される。
しかし、いくつかの無関係な命令は、モデルのキャパシティ回復に悪影響を及ぼす可能性がある。
textbfPost-training dtextbfAta textbfSelection method for textbfEfficient pruned large language model textbfRecovery (textbfPASER)を提案する。
論文 参考訳(メタデータ) (2025-02-18T07:11:08Z) - Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging [11.223074654129915]
大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。
本稿では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を軽減することを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:44:31Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。