論文の概要: Towards a Unified View on Visual Parameter-Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2210.00788v1
- Date: Mon, 3 Oct 2022 09:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:53:58.990658
- Title: Towards a Unified View on Visual Parameter-Efficient Transfer Learning
- Title(参考訳): 視覚パラメータ効率向上学習の統一的視点に向けて
- Authors: Bruce X.B. Yu, Jianlong Chang, Lingbo Liu, Qi Tian, Chang Wen Chen
- Abstract要約: 本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 96.99924127527002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the release of various large-scale natural language processing (NLP)
pre-trained models, parameter efficient transfer learning (PETL) has become a
popular paradigm capable of achieving impressive performance on various
downstream tasks. PETL aims at making good use of the representation knowledge
in the pre-trained large models by fine-tuning a small number of parameters.
Recently, it has also attracted increasing attention to developing various PETL
techniques for vision tasks. Popular PETL techniques such as Prompt-tuning and
Adapter have been proposed for high-level visual downstream tasks such as image
classification and video recognition. However, Prefix-tuning remains
under-explored for vision tasks. In this work, we intend to adapt large
video-based models to downstream tasks with a good parameter-accuracy
trade-off. Towards this goal, we propose a framework with a unified view called
visual-PETL (V-PETL) to investigate the different aspects affecting the
trade-off. Specifically, we analyze the positional importance of trainable
parameters and differences between NLP and vision tasks in terms of data
structures and pre-training mechanisms while implementing various PETL
techniques, especially for the under-explored prefix-tuning technique. Based on
a comprehensive understanding of differences between NLP and video data, we
propose a new variation of prefix-tuning module called parallel attention
(PATT) for video-based downstream tasks. An extensive empirical analysis on two
video datasets via different frozen backbones has been carried and the findings
show that the proposed PATT can effectively contribute to other PETL
techniques. An effective scheme Swin-BAPAT derived from the proposed V-PETL
framework achieves significantly better performance than the state-of-the-art
AdaptFormer-Swin with slightly more parameters and outperforms full-tuning with
far less parameters.
- Abstract(参考訳): 各種大規模自然言語処理(NLP)事前学習モデルのリリース以来,パラメータ効率のよい伝達学習(PETL)は,様々な下流タスクにおいて印象的な性能を達成できる一般的なパラダイムとなっている。
PETLは、少数のパラメータを微調整することで、事前訓練された大規模モデルにおける表現知識をうまく活用することを目的としている。
近年,視覚タスクのための様々なPETL技術の開発にも注目が集まっている。
プロンプトチューニングやアダプタといった一般的なpetlテクニックは、画像分類やビデオ認識といった高レベルな視覚的下流タスクのために提案されている。
しかし、Prefix-tuningはビジョンタスクでは未探索のままである。
本研究では,パラメータ精度の良いトレードオフを生かして,大規模なビデオベースモデルを下流タスクに適用する。
この目標を達成するために,視覚PETL(V-PETL)と呼ばれる統一的な視点を持つフレームワークを提案する。
具体的には,訓練可能なパラメータの位置的重要性とNLPと視覚タスクの違いを,データ構造と事前学習機構の観点から分析し,PETL技術,特に未探索プレフィックスチューニング技術を実装した。
NLPとビデオデータの違いの包括的理解に基づいて、ビデオベース下流タスクのためのパラレルアテンション(PATT)と呼ばれるプレフィックスチューニングモジュールを新たに提案する。
異なる冷凍バックボーンによる2つのビデオデータセットの広範な実験分析を行い,提案手法が他のPETL技術に有効であることを示す。
提案したV-PETLフレームワークから派生したSwin-BAPATの有効性は,従来のAdaptFormer-Swinよりも大幅に向上した。
関連論文リスト
- Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。