Fugu-MT 論文翻訳(概要): Efficient Model Development through Fine-tuning Transfer

論文の概要: Efficient Model Development through Fine-tuning Transfer

arxiv url: http://arxiv.org/abs/2503.20110v1
Date: Tue, 25 Mar 2025 23:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.005013
Title: Efficient Model Development through Fine-tuning Transfer
Title（参考訳）: 微調整伝達による効率的なモデル開発
Authors: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu,
Abstract要約: 本稿では,モデルバージョン間の微調整更新の転送について検討する。差分ベクトルの転送はターゲットベースモデルを大幅に改善できることを示す。多言語モデル開発環境において,本手法は再学習を伴わずに性能を著しく向上させることができることを示す。
参考スコア（独自算出の注目度）: 10.194950720833598
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern LLMs struggle with efficient updates, as each new pretrained model version requires repeating expensive alignment processes. This challenge also applies to domain- or language-specific models, where fine-tuning on specialized data must be redone for every new base model release. In this paper, we explore the transfer of fine-tuning updates between model versions. Specifically, we derive the diff vector from one source model version, which represents the weight changes from fine-tuning, and apply it to the base model of a different target version. Through empirical evaluations on various open-weight model versions, we show that transferring diff vectors can significantly improve the target base model, often achieving performance comparable to its fine-tuned counterpart. For example, reusing the fine-tuning updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on GPQA over the base Llama 3.1 8B without additional training, surpassing Llama 3.1 8B Instruct. In a multilingual model development setting, we show that this approach can significantly increase performance on target-language tasks without retraining, achieving an absolute improvement of 4.7% and 15.5% on Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B Instruct. Our controlled experiments reveal that fine-tuning transfer is most effective when the source and target models are linearly connected in the parameter space. Additionally, we demonstrate that fine-tuning transfer offers a stronger and more computationally efficient starting point for further fine-tuning. Finally, we propose an iterative recycling-then-finetuning approach for continuous model development, which improves both efficiency and effectiveness. Our findings suggest that fine-tuning transfer is a viable strategy to reduce training costs while maintaining model performance.
Abstract（参考訳）: 新しい事前訓練されたモデルバージョンは、高価なアライメントプロセスを繰り返す必要があるため、現代のLLMは効率的な更新に苦慮している。この課題はドメイン固有のモデルや言語固有のモデルにも適用される。本稿では,モデルバージョン間の微調整更新の転送について検討する。具体的には、1つのソースモデルバージョンから差分ベクトルを導出し、微調整による重み変化を表現し、異なるターゲットバージョンのベースモデルに適用する。各種オープンウェイトモデル版の実験的評価により、差動ベクトルの転送はターゲットベースモデルを大幅に改善し、しばしば微調整されたモデルに匹敵する性能を達成できることを示す。例えば、Llama 3.0 8Bからの微調整の更新を再利用すると、Llama 3.1 8BのベースであるLlama 3.1 8Bに対するGPQAの絶対精度は10.7%向上し、Llama 3.1 8Bを抜いた。 Llama 3.1 8B インストラクトと比較して,多言語モデル開発環境では,再訓練を伴わずに目標言語タスクのパフォーマンスを著しく向上させ,マラガサスとトルコのグローバルMMLUにおいて,それぞれ4.7%,15.5%の絶対的な改善を達成できることが示されている。制御された実験により,パラメータ空間内でソースモデルとターゲットモデルが線形に接続されている場合,微調整転送が最も効果的であることが判明した。さらに, 微調整転送により, より強く, より効率的な出発点が得られることを示す。最後に, 連続モデル開発のための反復的リサイクル-Then-finetuning手法を提案し, 効率と有効性の両方を改善した。本研究は, モデル性能を維持しつつ, トレーニングコストを抑えるため, 微調整トランスファーが有効な戦略であることが示唆された。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-24T14:27:20Z)
Extrapolation Merging: Keep Improving With Extrapolation and Merging [14.786100203787194]
大規模言語モデル(LLM)は、異なる下流タスクを実行するために命令の微調整を必要とする。モデルマージは、異なるモデルのパラメータを組み合わせることでパフォーマンスを向上させることを目的としている。本稿では,余分な計算資源やデータを必要とすることなく,モデル性能の向上を継続するパラダイムであるExtrapolation Mergingを提案する。
論文参考訳（メタデータ） (2025-03-05T14:28:22Z)
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文参考訳（メタデータ） (2024-10-13T19:53:40Z)
MUSCLE: A Model Update Strategy for Compatible LLM Evolution [29.032461144831053]
大きな言語モデル(LLM)は定期的に更新され、パフォーマンスが向上する。あるモデルバージョンから別のモデルバージョンへのパフォーマンスのインスタンスレベルの低下(インスタンス回帰)は、特定の言語モデルの能力に関するユーザのメンタルモデルに干渉する可能性がある。モデル更新におけるインスタンス回帰の程度を最小化するためのトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-07-12T17:12:48Z)
Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。微調整はモデルの機械的操作を変えるのではなく、強化する。
論文参考訳（メタデータ） (2024-02-22T18:59:24Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-10T12:53:48Z)
How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-09-22T07:27:32Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。 ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文参考訳（メタデータ） (2021-11-18T06:48:00Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。