論文の概要: Shadow-FT: Tuning Instruct Model via Training on Paired Base Model
- arxiv url: http://arxiv.org/abs/2505.12716v3
- Date: Fri, 26 Sep 2025 03:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.351661
- Title: Shadow-FT: Tuning Instruct Model via Training on Paired Base Model
- Title(参考訳): シャドウ-FT: ペアベースモデルによるトレーニングによるチューニングインストラクションモデル
- Authors: Taiqiang Wu, Runming Yang, Jiayi Li, Pengfei Hu, Yik-Chung Wu, Ngai Wong, Yujiu Yang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 67.20706292627106
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) consistently benefit from further fine-tuning on various tasks. However, we observe that directly tuning the Instruct (i.e., instruction-tuned) models often leads to marginal improvements and even performance degeneration. Notably, paired Base models, the foundation for these Instruct variants, contain highly similar weight values (i.e., less than 2% on average for Llama 3.1 8B). The Base model tends to be a good learner yet a weak backbone without post-training. Therefore, we propose a novel Shadow-FT framework to tune the Instruct models by leveraging the corresponding Base models. The key insight is to fine-tune the Base model, and then \textit{directly} graft the learned weight updates to the Instruct model. Our proposed Shadow-FT introduces no additional parameters, is easy to implement, and significantly improves performance. We conduct extensive experiments on tuning mainstream LLMs, such as Qwen 3 and Llama 3 series, and evaluate them across 19 benchmarks covering coding, reasoning, and mathematical tasks. Experimental results demonstrate that Shadow-FT consistently outperforms conventional full-parameter and parameter-efficient tuning approaches. Further analyses indicate that Shadow-FT can be applied to multimodal large language models (MLLMs) and combined with direct preference optimization~(DPO). Codes and weights are available at \href{https://github.com/wutaiqiang/Shadow-FT}{Github}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
しかし、インストラクション(命令調整)モデルを直接チューニングすることは、しばしば限界的な改善や性能劣化につながる。
特に、これらのインストラクト変種の基礎であるペアベースモデルは、非常に類似した重量値(Llama 3.1 8Bの平均で2%未満)を含んでいる。
Baseモデルはよい学習者だが、ポストトレーニングなしでは弱いバックボーンになりがちだ。
そこで本研究では,対応するベースモデルを活用してインストラクトモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
重要な洞察は、ベースモデルを微調整し、次に、学習したウェイト更新をインストラクトモデルに移植することである。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
我々は、Qwen 3 や Llama 3 シリーズのようなメインストリーム LLM のチューニングに関する広範な実験を行い、それらを符号化、推論、数学的タスクをカバーする19のベンチマークで評価する。
実験結果から,シャドウ-FTは従来のフルパラメータおよびパラメータ効率のチューニング手法より一貫して優れていた。
さらに分析したところ、シャドウ-FTはマルチモーダル大言語モデル(MLLM)に適用でき、直接選好最適化~(DPO)と組み合わせられることが示された。
コードとウェイトは \href{https://github.com/wutaiqiang/Shadow-FT}{Github} で公開されている。
関連論文リスト
- Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [35.36615140853107]
本研究では,多言語モデル(LLM)と人間の嗜好を整合させるためのDPOとその変種について検討する。
評価対象は、対話、推論、数学的問題解決、質問応答、真理性、MT-Bench、Big Bench、Open LLM Leaderboardを含む13のベンチマークである。
トレーニングデータのサブセットが小さい場合でも,アライメント手法がほぼ最適に近い性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。