論文の概要: Parameter-Free Fine-tuning via Redundancy Elimination for Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2504.08915v1
- Date: Fri, 11 Apr 2025 18:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:59.659006
- Title: Parameter-Free Fine-tuning via Redundancy Elimination for Vision Foundation Models
- Title(参考訳): ビジョン基礎モデルのための冗長除去によるパラメータフリー微調整
- Authors: Jiahuan Long, Tingsong Jiang, Wen Yao, Yizhe Xiong, Zhengqin Xu, Shuai Jia, Chao Ma,
- Abstract要約: ビジョン基礎モデル(VFM)は、様々なビジョンタスクのバックボーンを形成する訓練済みの大きなモデルである。
本稿では,SAMモデルの冗長性を考察し,この問題に対処するためのパラメータフリーな微調整法を提案する。
パラメータを調整する従来の微調整手法とは異なり、本手法は事前訓練された特徴の選択、再利用、強化を強調する。
- 参考スコア(独自算出の注目度): 9.116319627637939
- License:
- Abstract: Vision foundation models (VFMs) are large pre-trained models that form the backbone of various vision tasks. Fine-tuning VFMs can further unlock their potential for downstream tasks or scenarios. However, VFMs often contain significant feature redundancy, which may limit their adaptability to new tasks. In this paper, we investigate the redundancies in the segment anything model (SAM) and then propose a parameter-free fine-tuning method to address this issue. Unlike traditional fine-tuning methods that adjust parameters, our method emphasizes selecting, reusing, and enhancing pre-trained features, offering a new perspective on model fine-tuning. Specifically, we introduce a channel selection algorithm based on the model's output difference to identify redundant and effective channels. By selectively replacing the redundant channels with more effective ones, we filter out less useful features and reuse the more relevant features to downstream tasks, thereby enhancing the task-specific feature representation. Experiments on both out-of-domain and in-domain datasets demonstrate the efficiency and effectiveness of our method. Notably, our approach can seamlessly integrate with existing fine-tuning strategies (e.g., LoRA, Adapter), further boosting the performance of already fine-tuned models. Moreover, since our channel selection involves only model inference, our method significantly reduces computational and GPU memory overhead.
- Abstract(参考訳): ビジョン基礎モデル(VFM)は、様々なビジョンタスクのバックボーンを形成する訓練済みの大きなモデルである。
微調整のVFMは、下流のタスクやシナリオの可能性をさらに解き放つことができる。
しかしながら、VFMは、しばしば重要な特徴冗長性を含み、新しいタスクへの適応性を制限する可能性がある。
本稿では,SAMモデルの冗長性を考察し,この問題に対処するためのパラメータフリーな微調整法を提案する。
パラメータを調整する従来の微調整手法とは異なり、本手法は事前訓練された特徴の選択、再利用、強化を重視し、モデル微調整の新しい視点を提供する。
具体的には,モデルの出力差に基づくチャネル選択アルゴリズムを導入し,冗長で効果的なチャネルを同定する。
冗長なチャネルをより効果的なチャネルに選択的に置き換えることで、より有用な機能をフィルタリングし、より関連性の高い機能を下流タスクに再利用し、タスク固有の特徴表現を強化する。
ドメイン外のデータセットとドメイン内データセットの両方で実験を行い、本手法の有効性と有効性を示した。
特に、我々のアプローチは既存の微調整戦略(LoRA、Adapterなど)とシームレスに統合することができ、すでに微調整済みのモデルの性能をさらに向上させることができる。
さらに,提案手法はモデル推論のみを含むため,計算およびGPUメモリのオーバーヘッドを大幅に削減する。
関連論文リスト
- Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。
提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。
我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文 参考訳(メタデータ) (2024-10-03T02:12:03Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。
事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。
本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-28T00:14:53Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Operation-Aware Soft Channel Pruning using Differentiable Masks [51.04085547997066]
本稿では,データ駆動型アルゴリズムを提案する。このアルゴリズムは,操作特性を利用して,ディープニューラルネットワークを異なる方法で圧縮する。
我々は大規模な実験を行い、出力ネットワークの精度で優れた性能を達成する。
論文 参考訳(メタデータ) (2020-07-08T07:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。