論文の概要: Adapt Once, Thrive with Updates: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models
- arxiv url: http://arxiv.org/abs/2506.06844v1
- Date: Sat, 07 Jun 2025 15:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.521847
- Title: Adapt Once, Thrive with Updates: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models
- Title(参考訳): 進化するベースモデル上での伝達可能なパラメータ効率の良い微調整
- Authors: Naibin Gu, Peng Fu, Xiyu Liu, Ke Ma, Zheng Lin, Weiping Wang,
- Abstract要約: 本稿では,タスク固有パターンに着目してPEFTモジュールを強化する新しいアプローチであるTrans-PEFTを紹介する。
7つのベースモデルと12のデータセットにわたる実験では、Trans-PEFTトレーニングされたモジュールが、再チューニングすることなく、更新されたベースモデルのパフォーマンスを維持できることが示されている。
- 参考スコア(独自算出の注目度): 20.565818036963456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has become a common method for fine-tuning large language models, where a base model can serve multiple users through PEFT module switching. To enhance user experience, base models require periodic updates. However, once updated, PEFT modules fine-tuned on previous versions often suffer substantial performance degradation on newer versions. Re-tuning these numerous modules to restore performance would incur significant computational costs. Through a comprehensive analysis of the changes that occur during base model updates, we uncover an interesting phenomenon: continual training primarily affects task-specific knowledge stored in Feed-Forward Networks (FFN), while having less impact on the task-specific pattern in the Attention mechanism. Based on these findings, we introduce Trans-PEFT, a novel approach that enhances the PEFT module by focusing on the task-specific pattern while reducing its dependence on certain knowledge in the base model. Further theoretical analysis supports our approach. Extensive experiments across 7 base models and 12 datasets demonstrate that Trans-PEFT trained modules can maintain performance on updated base models without re-tuning, significantly reducing maintenance overhead in real-world applications.
- Abstract(参考訳): パラメータ効率のよい細調整(PEFT)は、PEFTモジュールスイッチングによってベースモデルを複数のユーザに提供する、大規模な言語モデルを微調整する一般的な方法となっている。
ユーザーエクスペリエンスを向上させるために、ベースモデルは定期的な更新を必要とする。
しかし、一度更新されると、以前のバージョンに微調整されたPEFTモジュールは、しばしば新しいバージョンで大幅に性能が低下する。
これらの多数のモジュールを再構築して性能を回復すると、計算コストが大幅に上昇する。
継続トレーニングは、主にフィードフォワードネットワーク(FFN)に格納されたタスク固有の知識に影響を与えるが、アテンションメカニズムのタスク固有のパターンには影響しない。
そこで本研究では,タスク固有パターンに着目しながら,ベースモデルにおける特定の知識への依存度を低減し,PEFTモジュールを強化する新しいアプローチであるTrans-PEFTを紹介する。
さらなる理論的分析は我々のアプローチを支持する。
7つのベースモデルと12のデータセットにわたる大規模な実験により、Trans-PEFTトレーニングされたモジュールは、再チューニングすることなく、更新されたベースモデルのパフォーマンスを維持でき、現実世界のアプリケーションのメンテナンスオーバーヘッドを大幅に削減できることが示された。
関連論文リスト
- Test-Time Model Adaptation for Quantized Neural Networks [37.84294929199108]
量子化モデルは、潜在的なドメインシフトを伴う動的環境において、深刻なパフォーマンス劣化に悩まされることが多い。
テスト時間適応(TTA)は、モデルがテストデータから適応的に学習できるようにすることによって、効果的なソリューションとして登場した。
本稿では,2つのフォワードパスのみを用いた効率的なモデル適応を実現するための連続ゼロ階適応(ZOA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T08:24:19Z) - Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting [1.5595148909011116]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T06:23:50Z) - Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。
既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。
デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:11:19Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - PortLLM: Personalizing Evolving Large Language Models with Training-Free and Portable Model Patches [34.65386386598757]
PortLLMはトレーニング不要のフレームワークで、ドメイン固有の知識をキャプチャするための、最初の軽量モデル更新パッチを作成する。
PortLLMは、最大12.2倍のGPUメモリ使用率でLoRAファインチューニングに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-08T13:41:08Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。