論文の概要: Efficient Model Development through Fine-tuning Transfer
- arxiv url: http://arxiv.org/abs/2503.20110v2
- Date: Thu, 06 Nov 2025 05:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.57443
- Title: Efficient Model Development through Fine-tuning Transfer
- Title(参考訳): 微調整伝達による効率的なモデル開発
- Authors: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu,
- Abstract要約: 差分ベクトルの転送はターゲットベースモデルの性能を大幅に向上させることができることを示す。
我々は多言語タスクのパフォーマンス向上を示し、マラガシーとトルコのグローバルMMLUは4.7%と15.5%改善した。
実験により,パラメータ空間の線形連結領域にソースモデルとターゲットモデルが存在する場合,微調整転送が最も効果的であることが示唆された。
- 参考スコア(独自算出の注目度): 13.244979249153872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern LLMs struggle with efficient updates, as each new pretrained model version requires repeating expensive alignment processes. This challenge also applies to domain- or languagespecific models, where fine-tuning on specialized data must be redone for every new base model release. In this paper, we explore the transfer of fine-tuning updates between model versions. Specifically, we derive the diff vector (representing the weight changes from finetuning) from one source model version and apply it to the base model of a different target version. Through empirical evaluations on various open-weight model versions, we show that transferring diff vectors can significantly improve the performance of the target base model. For example, transferring the fine-tuning updates from Llama 3.0 8B improves Llama 3.1 8B by 46.9% on IFEval and 15.7% on LiveCodeBench without additional training, even surpassing Llama 3.1 8B Instruct. Furthermore, we demonstrate performance gains on multilingual tasks, with 4.7% and 15.5% improvements on Global MMLU for Malagasy and Turkish, respectively. We observe that these merged models provide stronger initializations for further fine-tuning. Lastly, our controlled experiments suggest that fine-tuning transfer is most effective when source and target models lie in a linearly connected region of parameter space, and we provide a theoretical analysis of our method. Taken together, fine-tuning transfer offers a cost-efficient and practical strategy for continuous LLM development. Our code is available at github.com/pjlintw/finetuning-transfer.
- Abstract(参考訳): 新しい事前訓練されたモデルバージョンは、高価なアライメントプロセスを繰り返す必要があるため、現代のLLMは効率的な更新に苦慮している。
この課題はドメイン固有のモデルや言語固有のモデルにも適用される。
本稿では,モデルバージョン間の微調整更新の転送について検討する。
具体的には、1つのソースモデルバージョンから差分ベクトル(微調整による重み変化を表す)を導出し、異なるターゲットバージョンのベースモデルに適用する。
各種オープンウェイトモデル版の実験的評価により, 差動ベクトルの転送により, 対象ベースモデルの性能が大幅に向上することを示した。
例えば、Llama 3.0 8Bから微調整されたアップデートを移すことで、IFEvalでは46.9%、LiveCodeBenchでは15.7%改善し、Llama 3.1 8Bインストラクトを超えている。
さらに,多言語タスクのパフォーマンス向上を実証し,マラガシーとトルコのグローバルMMLUをそれぞれ4.7%と15.5%改善した。
これらの統合モデルは、さらなる微調整のためにより強力な初期化を提供する。
最後に、制御された実験により、パラメータ空間の線形連結領域にソースモデルとターゲットモデルが存在する場合、微調整転送が最も効果的であることが示唆された。
ファインチューニング・トランスファーは、連続LLM開発のためのコスト効率と実用的な戦略を提供する。
私たちのコードはgithub.com/pjlintw/finetuning-transferで利用可能です。
関連論文リスト
- Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。
微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:27:20Z) - Extrapolation Merging: Keep Improving With Extrapolation and Merging [14.786100203787194]
大規模言語モデル(LLM)は、異なる下流タスクを実行するために命令の微調整を必要とする。
モデルマージは、異なるモデルのパラメータを組み合わせることでパフォーマンスを向上させることを目的としている。
本稿では,余分な計算資源やデータを必要とすることなく,モデル性能の向上を継続するパラダイムであるExtrapolation Mergingを提案する。
論文 参考訳(メタデータ) (2025-03-05T14:28:22Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - MUSCLE: A Model Update Strategy for Compatible LLM Evolution [29.032461144831053]
大きな言語モデル(LLM)は定期的に更新され、パフォーマンスが向上する。
あるモデルバージョンから別のモデルバージョンへのパフォーマンスのインスタンスレベルの低下(インスタンス回帰)は、特定の言語モデルの能力に関するユーザのメンタルモデルに干渉する可能性がある。
モデル更新におけるインスタンス回帰の程度を最小化するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-07-12T17:12:48Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。
本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T12:53:48Z) - How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。