論文の概要: Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer
- arxiv url: http://arxiv.org/abs/2505.18713v1
- Date: Sat, 24 May 2025 14:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.613636
- Title: Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer
- Title(参考訳): スリムな微調整モデルのニューラルパラメータ探索とより良い伝達
- Authors: Guodong Du, Zitao Fang, Jing Li, Junlin Li, Runhua Jiang, Shuyang Yu, Yifei Guo, Yangneng Chen, Sim Kuan Goh, Ho-Kin Tang, Daojing He, Honghai Liu, Min Zhang,
- Abstract要約: 微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。
微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.463052541838504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models and their checkpoints have significantly advanced deep learning, boosting performance across various applications. However, fine-tuned models often struggle outside their specific domains and exhibit considerable redundancy. Recent studies suggest that combining a pruned fine-tuned model with the original pre-trained model can mitigate forgetting, reduce interference when merging model parameters across tasks, and improve compression efficiency. In this context, developing an effective pruning strategy for fine-tuned models is crucial. Leveraging the advantages of the task vector mechanism, we preprocess fine-tuned models by calculating the differences between them and the original model. Recognizing that different task vector subspaces contribute variably to model performance, we introduce a novel method called Neural Parameter Search (NPS-Pruning) for slimming down fine-tuned models. This method enhances pruning efficiency by searching through neural parameters of task vectors within low-rank subspaces. Our method has three key applications: enhancing knowledge transfer through pairwise model interpolation, facilitating effective knowledge fusion via model merging, and enabling the deployment of compressed models that retain near-original performance while significantly reducing storage costs. Extensive experiments across vision, NLP, and multi-modal benchmarks demonstrate the effectiveness and robustness of our approach, resulting in substantial performance gains. The code is publicly available at: https://github.com/duguodong7/NPS-Pruning.
- Abstract(参考訳): ファンデーションモデルとそのチェックポイントは、非常に高度なディープラーニングを持ち、さまざまなアプリケーションのパフォーマンスを高めている。
しかし、微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前訓練モデルを組み合わせることで、忘れを軽減し、タスク間でモデルパラメータをマージする際の干渉を軽減し、圧縮効率を向上させることが示唆されている。
この文脈では、細調整されたモデルに対する効果的なプルーニング戦略の開発が重要である。
タスクベクトル機構の利点を生かして、タスクベクトルと元のモデルの違いを計算して微調整モデルを前処理する。
異なるタスクベクトル部分空間がモデル性能に可変に寄与していることを認識し、細調整されたモデルをスリム化するためのニューラルパラメータ探索(NPS-Pruning)と呼ばれる新しい手法を導入する。
この方法は、低ランク部分空間内のタスクベクトルのニューラルネットワークパラメータを探索することにより、プルーニング効率を向上させる。
提案手法には,ペアワイズモデル補間による知識伝達の促進,モデルマージによる効果的な知識融合の促進,ほぼオリジナルに近い性能を維持しつつ,ストレージコストを大幅に削減する圧縮モデルの展開,という3つの重要な応用がある。
視覚,NLP,マルチモーダルベンチマークにわたる広範囲な実験により,我々のアプローチの有効性とロバスト性を実証し,大幅な性能向上を実現した。
コードは、https://github.com/duguodong7/NPS-Pruning.comで公開されている。
関連論文リスト
- Mitigating Parameter Interference in Model Merging via Sharpness-Aware Fine-Tuning [6.110846759317336]
事前学習のパラダイムを持つ大規模ディープラーニングモデルは、一般的な事前学習モデルから微調整された多数のタスク固有モデルの急増につながっている。
これらの大きなモデルを単一のマルチタスクモデル、特にパラメータの単純な算術モデルにマージする研究が進められている。
このようなマージ手法は、異なるタスクで微調整されたモデルパラメータ間の干渉という、中心的な課題に直面します。
我々は、シャープネスを意識した最小化による事前学習モデルの微調整を提案する。
論文 参考訳(メタデータ) (2025-04-20T15:57:12Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Efficient Learning With Sine-Activated Low-rank Matrices [25.12262017296922]
低ランク分解過程に正弦波関数を統合する新しい理論枠組みを提案する。
提案手法は,視覚変換器(ViT),Large Language Models(LLMs),NeRF(Neural Radiance Fields),および3次元形状モデリング(3D shape modelling)において,既存の低ランクモデルに対するプラグインとして証明されている。
論文 参考訳(メタデータ) (2024-03-28T08:58:20Z) - Do deep neural networks utilize the weight space efficiently? [2.9914612342004503]
TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。
重み行列の列空間と行空間を利用する新しい概念を導入し、性能を損なうことなくモデルパラメータを大幅に削減する。
私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。
論文 参考訳(メタデータ) (2024-01-26T21:51:49Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。