論文の概要: Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey
- arxiv url: http://arxiv.org/abs/2402.02242v2
- Date: Thu, 8 Feb 2024 08:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:08:36.118378
- Title: Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey
- Title(参考訳): 事前学習した視覚モデルのパラメータ効率の微調整:調査
- Authors: Yi Xin, Siqi Luo, Haodi Zhou, Junlong Du, Xiaohong Liu, Yue Fan, Qing
Li, Yuntao Du
- Abstract要約: パラメータ効率のよい微調整(PEFT)を研究中
PEFTは最小パラメータ修正による完全微調整の性能を上回ることを目指している。
本調査は視覚的PEFTの総合的概要と今後の方向性を提供する。
- 参考スコア(独自算出の注目度): 15.571673103536414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained vision models (PVMs) have shown great potential for
adaptability across various downstream vision tasks. However, with
state-of-the-art PVMs growing to billions or even trillions of parameters, the
standard full fine-tuning paradigm is becoming unsustainable due to high
computational and storage demands. In response, researchers are exploring
parameter-efficient fine-tuning (PEFT), which seeks to exceed the performance
of full fine-tuning with minimal parameter modifications. This survey provides
a comprehensive overview and future directions for visual PEFT, offering a
systematic review of the latest advancements. First, we provide a formal
definition of PEFT and discuss model pre-training methods. We then categorize
existing methods into three categories: addition-based, partial-based, and
unified-based. Finally, we introduce the commonly used datasets and
applications and suggest potential future research challenges. A comprehensive
collection of resources is available at
https://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learning.
- Abstract(参考訳): 大規模事前学習型視覚モデル(PVM)は、下流の視覚タスクにまたがる適応可能性を示す。
しかし、最先端のPVMが数十億または数兆のパラメータに成長するにつれ、計算とストレージの要求が高いため、標準のフルチューニングパラダイムは持続不可能になりつつある。
これに対し, パラメータ修正の最小化による完全微調整の性能を超越したパラメータ効率細調整(PEFT)を研究中である。
この調査は、visual peftの包括的な概要と今後の方向性を提供し、最新の進歩を体系的にレビューする。
まず,PEFTの形式的定義とモデル事前学習手法について議論する。
次に既存のメソッドを,加算ベース,部分ベース,統一ベースという3つのカテゴリに分類する。
最後に、一般的に使用されるデータセットとアプリケーションを紹介し、将来の研究課題を示唆する。
リソースの包括的なコレクションはhttps://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learningにある。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning [15.254782791542329]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [69.03538086844516]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。