論文の概要: Not All Parameters Are Created Equal: Smart Isolation Boosts Fine-Tuning Performance
- arxiv url: http://arxiv.org/abs/2508.21741v1
- Date: Fri, 29 Aug 2025 16:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.110521
- Title: Not All Parameters Are Created Equal: Smart Isolation Boosts Fine-Tuning Performance
- Title(参考訳): すべてのパラメータが等しくなるわけではない:スマートアイソレーションは微調整性能を向上する
- Authors: Yao Wang, Di Liang, Minlong Peng,
- Abstract要約: 各タスクのコアパラメータは、統一されたバックボーンに移植される。
異なるタスクの非コアパラメータは、Spherical Linear Interpolationを通じてスムーズに統合される。
複数の公開ベンチマークの実験は、我々のアプローチがタスクの干渉や忘れを著しく軽減していることを示している。
- 参考スコア(独自算出の注目度): 13.636389424786854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) is a pivotal approach to adapting large language models (LLMs) for downstream tasks; however, performance often suffers from the ``seesaw phenomenon'', where indiscriminate parameter updates yield progress on certain tasks at the expense of others. To address this challenge, we propose a novel \emph{Core Parameter Isolation Fine-Tuning} (CPI-FT) framework. Specifically, we first independently fine-tune the LLM on each task to identify its core parameter regions by quantifying parameter update magnitudes. Tasks with similar core regions are then grouped based on region overlap, forming clusters for joint modeling. We further introduce a parameter fusion technique: for each task, core parameters from its individually fine-tuned model are directly transplanted into a unified backbone, while non-core parameters from different tasks are smoothly integrated via Spherical Linear Interpolation (SLERP), mitigating destructive interference. A lightweight, pipelined SFT training phase using mixed-task data is subsequently employed, while freezing core regions from prior tasks to prevent catastrophic forgetting. Extensive experiments on multiple public benchmarks demonstrate that our approach significantly alleviates task interference and forgetting, consistently outperforming vanilla multi-task and multi-stage fine-tuning baselines.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、ダウンストリームタスクに大規模な言語モデル(LLM)を適用するための重要なアプローチである。
この課題に対処するために,新しいCPI-FTフレームワークを提案する。
具体的には、まず、各タスクのLCMを独立に微調整し、パラメータの更新サイズを定量化することで、そのコアパラメータ領域を識別する。
同様のコア領域を持つタスクは、リージョンオーバーラップに基づいてグループ化され、共同モデリングのためのクラスタを形成する。
さらに,各タスクに対して,個々の微調整されたモデルのコアパラメータを直接統一されたバックボーンに移植し,異なるタスクのコアパラメータを球状線形補間(SLERP)を介してスムーズに統合し,破壊的干渉を緩和するパラメータ融合手法を提案する。
その後、混合タスクデータを用いた軽量パイプラインSFTトレーニングフェーズが採用され、それまでのタスクからコア領域を凍結して破滅的な忘れ込みを防止する。
複数の公開ベンチマークでの大規模な実験により、我々のアプローチはタスクの干渉や忘れを著しく軽減し、バニラマルチタスクとマルチステージ微調整ベースラインを一貫して上回っていることが示されている。
関連論文リスト
- Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging [38.12136955174922]
個別タスクのための微調整された大規模言語モデル(LM)は、高いパフォーマンスをもたらすが、デプロイメントやストレージには高価である。
最近の研究は、複数のタスク固有のモデルを追加トレーニングなしで単一のマルチタスクモデルに結合するモデルマージについて検討している。
既存のマージ方式は、性能劣化のためにローランク適応(LoRA)を微調整したモデルでは失敗することが多い。
論文 参考訳(メタデータ) (2025-05-28T23:28:12Z) - Efficient Federated Class-Incremental Learning of Pre-Trained Models via Task-agnostic Low-rank Residual Adaptation [22.454292668849035]
Fed-TaLoRA(Federated Task-Agnostic Low-rank Residual Adaptation)
我々は,最小限のオーバーヘッドで正確な知識統合を実現するための,新たな残量更新機構を開発した。
我々の方法論的革新は,タスク非依存適応,ポストアグリゲーションモデル校正,LORAモジュールの戦略的配置の3つの主要な戦略に起因している。
論文 参考訳(メタデータ) (2025-05-18T09:19:13Z) - Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation [17.39117429338763]
相補的パラメータ適応を用いたトレーニング不要なパラメータ効率的なマージ手法であるCoPA-Mergingを提案する。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。