論文の概要: Adapt Once, Thrive with Updates: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models
- arxiv url: http://arxiv.org/abs/2506.06844v1
- Date: Sat, 07 Jun 2025 15:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.521847
- Title: Adapt Once, Thrive with Updates: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models
- Title(参考訳): 進化するベースモデル上での伝達可能なパラメータ効率の良い微調整
- Authors: Naibin Gu, Peng Fu, Xiyu Liu, Ke Ma, Zheng Lin, Weiping Wang,
- Abstract要約: 本稿では,タスク固有パターンに着目してPEFTモジュールを強化する新しいアプローチであるTrans-PEFTを紹介する。
7つのベースモデルと12のデータセットにわたる実験では、Trans-PEFTトレーニングされたモジュールが、再チューニングすることなく、更新されたベースモデルのパフォーマンスを維持できることが示されている。
- 参考スコア(独自算出の注目度): 20.565818036963456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has become a common method for fine-tuning large language models, where a base model can serve multiple users through PEFT module switching. To enhance user experience, base models require periodic updates. However, once updated, PEFT modules fine-tuned on previous versions often suffer substantial performance degradation on newer versions. Re-tuning these numerous modules to restore performance would incur significant computational costs. Through a comprehensive analysis of the changes that occur during base model updates, we uncover an interesting phenomenon: continual training primarily affects task-specific knowledge stored in Feed-Forward Networks (FFN), while having less impact on the task-specific pattern in the Attention mechanism. Based on these findings, we introduce Trans-PEFT, a novel approach that enhances the PEFT module by focusing on the task-specific pattern while reducing its dependence on certain knowledge in the base model. Further theoretical analysis supports our approach. Extensive experiments across 7 base models and 12 datasets demonstrate that Trans-PEFT trained modules can maintain performance on updated base models without re-tuning, significantly reducing maintenance overhead in real-world applications.
- Abstract(参考訳): パラメータ効率のよい細調整(PEFT)は、PEFTモジュールスイッチングによってベースモデルを複数のユーザに提供する、大規模な言語モデルを微調整する一般的な方法となっている。
ユーザーエクスペリエンスを向上させるために、ベースモデルは定期的な更新を必要とする。
しかし、一度更新されると、以前のバージョンに微調整されたPEFTモジュールは、しばしば新しいバージョンで大幅に性能が低下する。
これらの多数のモジュールを再構築して性能を回復すると、計算コストが大幅に上昇する。
継続トレーニングは、主にフィードフォワードネットワーク(FFN)に格納されたタスク固有の知識に影響を与えるが、アテンションメカニズムのタスク固有のパターンには影響しない。
そこで本研究では,タスク固有パターンに着目しながら,ベースモデルにおける特定の知識への依存度を低減し,PEFTモジュールを強化する新しいアプローチであるTrans-PEFTを紹介する。
さらなる理論的分析は我々のアプローチを支持する。
7つのベースモデルと12のデータセットにわたる大規模な実験により、Trans-PEFTトレーニングされたモジュールは、再チューニングすることなく、更新されたベースモデルのパフォーマンスを維持でき、現実世界のアプリケーションのメンテナンスオーバーヘッドを大幅に削減できることが示された。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - PortLLM: Personalizing Evolving Large Language Models with Training-Free and Portable Model Patches [34.65386386598757]
PortLLMはトレーニング不要のフレームワークで、ドメイン固有の知識をキャプチャするための、最初の軽量モデル更新パッチを作成する。
PortLLMは、最大12.2倍のGPUメモリ使用率でLoRAファインチューニングに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-08T13:41:08Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。