論文の概要: The Effectiveness of Approximate Regularized Replay for Efficient Supervised Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.22337v1
- Date: Fri, 26 Dec 2025 18:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.005159
- Title: The Effectiveness of Approximate Regularized Replay for Efficient Supervised Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの効率的な教師付き微調整における近似正規化リプレイの有効性
- Authors: Matthew Riemer, Erik Miehling, Miao Liu, Djallel Bouneffouf, Murray Campbell,
- Abstract要約: LoRAベースの教師付き微調整は、壊滅的にモデルの能力が低下する可能性がある。
オーバーヘッドがほとんどないトレーニング手順の微調整は、この問題を事実上排除することができる。
- 参考スコア(独自算出の注目度): 17.1510128169152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although parameter-efficient fine-tuning methods, such as LoRA, only modify a small subset of parameters, they can have a significant impact on the model. Our instruction-tuning experiments show that LoRA-based supervised fine-tuning can catastrophically degrade model capabilities, even when trained on very small datasets for relatively few steps. With that said, we demonstrate that while the most straightforward approach (that is likely the most used in practice) fails spectacularly, small tweaks to the training procedure with very little overhead can virtually eliminate the problem. Particularly, in this paper we consider a regularized approximate replay approach which penalizes KL divergence with respect to the initial model and interleaves in data for next token prediction from a different, yet similar, open access corpus to what was used in pre-training. When applied to Qwen instruction-tuned models, we find that this recipe preserves general knowledge in the model without hindering plasticity to new tasks by adding a modest amount of computational overhead.
- Abstract(参考訳): LoRAのようなパラメータ効率のよい微調整手法は、パラメータの小さなサブセットだけを変更するが、モデルに大きな影響を与える可能性がある。
我々のインストラクションチューニング実験は、比較的少数のステップで非常に小さなデータセットでトレーニングしても、LoRAベースの教師付き微調整が壊滅的にモデル能力を低下させることができることを示した。
そうは言っても、最も単純なアプローチ(実際に最も使われていると思われる)が驚くほど失敗する一方で、オーバーヘッドの少ないトレーニング手順に小さな変更を加えることで、この問題を事実上排除できることを実証しています。
特に,本論文では,初期モデルに対してKLの発散をペナルティ化し,事前学習に使用されたものと異なるが類似したオープンアクセスコーパスから次のトークン予測のためのデータをインターリーブする,正規化された近似リプレイ手法について検討する。
Qwen命令チューニングモデルに適用すると、このレシピは、計算オーバーヘッドをわずかに増やすことで、新しいタスクに可塑性を阻害することなく、モデル内の一般的な知識を保存できることが分かる。
関連論文リスト
- Fine-tuning for Better Few Shot Prompting: An Empirical Comparison for Short Answer Grading [0.5825410941577593]
ファインチューニング手法は歴史的に多くのユーザにとってアクセス不能な大規模計算クラスタを必要としてきた。
OpenAIの微調整サービスのような新しいクローズドモデルアプローチは、100の例で結果をもたらす。
これら2つの微調整手法の評価を行い, 自動短時間解答グレーディングのための数ショットプロンプトとの相互作用を測定した。
論文 参考訳(メタデータ) (2025-08-06T03:52:55Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。