論文の概要: Towards a Unified View on Visual Parameter-Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2210.00788v1
- Date: Mon, 3 Oct 2022 09:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:53:58.990658
- Title: Towards a Unified View on Visual Parameter-Efficient Transfer Learning
- Title(参考訳): 視覚パラメータ効率向上学習の統一的視点に向けて
- Authors: Bruce X.B. Yu, Jianlong Chang, Lingbo Liu, Qi Tian, Chang Wen Chen
- Abstract要約: 本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 96.99924127527002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the release of various large-scale natural language processing (NLP)
pre-trained models, parameter efficient transfer learning (PETL) has become a
popular paradigm capable of achieving impressive performance on various
downstream tasks. PETL aims at making good use of the representation knowledge
in the pre-trained large models by fine-tuning a small number of parameters.
Recently, it has also attracted increasing attention to developing various PETL
techniques for vision tasks. Popular PETL techniques such as Prompt-tuning and
Adapter have been proposed for high-level visual downstream tasks such as image
classification and video recognition. However, Prefix-tuning remains
under-explored for vision tasks. In this work, we intend to adapt large
video-based models to downstream tasks with a good parameter-accuracy
trade-off. Towards this goal, we propose a framework with a unified view called
visual-PETL (V-PETL) to investigate the different aspects affecting the
trade-off. Specifically, we analyze the positional importance of trainable
parameters and differences between NLP and vision tasks in terms of data
structures and pre-training mechanisms while implementing various PETL
techniques, especially for the under-explored prefix-tuning technique. Based on
a comprehensive understanding of differences between NLP and video data, we
propose a new variation of prefix-tuning module called parallel attention
(PATT) for video-based downstream tasks. An extensive empirical analysis on two
video datasets via different frozen backbones has been carried and the findings
show that the proposed PATT can effectively contribute to other PETL
techniques. An effective scheme Swin-BAPAT derived from the proposed V-PETL
framework achieves significantly better performance than the state-of-the-art
AdaptFormer-Swin with slightly more parameters and outperforms full-tuning with
far less parameters.
- Abstract(参考訳): 各種大規模自然言語処理(NLP)事前学習モデルのリリース以来,パラメータ効率のよい伝達学習(PETL)は,様々な下流タスクにおいて印象的な性能を達成できる一般的なパラダイムとなっている。
PETLは、少数のパラメータを微調整することで、事前訓練された大規模モデルにおける表現知識をうまく活用することを目的としている。
近年,視覚タスクのための様々なPETL技術の開発にも注目が集まっている。
プロンプトチューニングやアダプタといった一般的なpetlテクニックは、画像分類やビデオ認識といった高レベルな視覚的下流タスクのために提案されている。
しかし、Prefix-tuningはビジョンタスクでは未探索のままである。
本研究では,パラメータ精度の良いトレードオフを生かして,大規模なビデオベースモデルを下流タスクに適用する。
この目標を達成するために,視覚PETL(V-PETL)と呼ばれる統一的な視点を持つフレームワークを提案する。
具体的には,訓練可能なパラメータの位置的重要性とNLPと視覚タスクの違いを,データ構造と事前学習機構の観点から分析し,PETL技術,特に未探索プレフィックスチューニング技術を実装した。
NLPとビデオデータの違いの包括的理解に基づいて、ビデオベース下流タスクのためのパラレルアテンション(PATT)と呼ばれるプレフィックスチューニングモジュールを新たに提案する。
異なる冷凍バックボーンによる2つのビデオデータセットの広範な実験分析を行い,提案手法が他のPETL技術に有効であることを示す。
提案したV-PETLフレームワークから派生したSwin-BAPATの有効性は,従来のAdaptFormer-Swinよりも大幅に向上した。
関連論文リスト
- Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning [15.254782791542329]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey [15.571673103536414]
パラメータ効率のよい微調整(PEFT)を研究中
PEFTは最小パラメータ修正による完全微調整の性能を上回ることを目指している。
本調査は視覚的PEFTの総合的概要と今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-02-03T19:12:20Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。