論文の概要: Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark
- arxiv url: http://arxiv.org/abs/2402.02242v5
- Date: Sun, 29 Jun 2025 17:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.255008
- Title: Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark
- Title(参考訳): 事前学習型視覚モデルのためのパラメータ効率の良いファインチューニング:サーベイとベンチマーク
- Authors: Yi Xin, Jianjiang Yang, Siqi Luo, Yuntao Du, Qi Qin, Kangrui Cen, Yangfan He, Bin Fu, Xiaokang Yang, Guangtao Zhai, Ming-Hsuan Yang, Xiaohong Liu,
- Abstract要約: 事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに顕著な適応性を示した。
これらのモデルが数十億または数兆のパラメータにスケールするにつれて、計算と記憶の要求が高いため、従来の完全な微調整はますます非現実的になっている。
パラメータ効率の良いファインチューニング(PEFT)は、モデルパラメータを最小限に調整しながら、完全なファインチューニングに匹敵するパフォーマンスを実現するための、有望な代替手段として登場した。
- 参考スコア(独自算出の注目度): 97.8968058408759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision models (PVMs) have demonstrated remarkable adaptability across a wide range of downstream vision tasks, showcasing exceptional performance. However, as these models scale to billions or even trillions of parameters, conventional full fine-tuning has become increasingly impractical due to its high computational and storage demands. To address these challenges, parameter-efficient fine-tuning (PEFT) has emerged as a promising alternative, aiming to achieve performance comparable to full fine-tuning while making minimal adjustments to the model parameters. This paper presents a comprehensive survey of the latest advancements in the visual PEFT field, systematically reviewing current methodologies and categorizing them into four primary categories: addition-based, partial-based, unified-based, and multi-task tuning. In addition, this paper offers an in-depth analysis of widely used visual datasets and real-world applications where PEFT methods have been successfully applied. Furthermore, this paper introduces the V-PEFT Bench, a unified benchmark designed to standardize the evaluation of PEFT methods across a diverse set of vision tasks, ensuring consistency and fairness in comparison. Finally, the paper outlines potential directions for future research to propel advances in the PEFT field. A comprehensive collection of resources is available at https://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learning.
- Abstract(参考訳): 事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに対して顕著な適応性を示し、例外的な性能を示している。
しかし、これらのモデルが数十億、あるいは数兆のパラメータにスケールするにつれて、計算量やストレージの要求が高いため、従来の完全な微調整はますます非現実的になっている。
これらの課題に対処するために、パラメータ効率のよい微調整(PEFT)が有望な代替手段として登場し、モデルパラメータを最小限に調整しながら、完全な微調整に匹敵するパフォーマンスの実現を目指している。
本稿では,視覚的PEFT分野の最新の進歩を包括的に調査し,現在の方法論を体系的にレビューし,これらを4つの主要カテゴリに分類する:加算ベース,部分ベース,統一ベース,マルチタスクチューニング。
さらに,本論文では,広く使用されているビジュアルデータセットと,PEFT法の適用に成功している実世界のアプリケーションについて,詳細な分析を行う。
さらに,V-PEFTベンチ(V-PEFT Bench)は,多種多様な視覚課題を対象としたPEFT手法の評価を標準化し,一貫性と公正性を確保するために設計された統一ベンチマークである。
最後に,PEFT分野の進歩を促進するための今後の研究の方向性について概説する。
リソースの包括的なコレクションはhttps://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learningで公開されている。
関連論文リスト
- Parameter-Efficient Continual Fine-Tuning: A Survey [5.59258786465086]
AIの次のブレークスルーは、進化する環境への効率的な適応を可能にすることです。
これらの大規模モデルを効率的に適応させる方法の1つが知られている。
PEFT(Efficient Fine-Tuning)
論文 参考訳(メタデータ) (2025-04-18T17:51:51Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies [17.904502959675337]
大規模なモデルでは、運用には相当な計算資源とGPUメモリが必要である。
PEFT (Efficient Fine-Tuning) は、様々な下流タスクに適合する大規模な事前学習モデルのパラメータを効率的に調整することで、実用的なソリューションを提供する。
本稿では,PEFTの予備知識,各種PEFTアルゴリズムの基本的な考え方と原理,PEFTの適用,今後の研究方向性について紹介する。
論文 参考訳(メタデータ) (2024-10-24T13:58:59Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。