論文の概要: Hierarchical Side-Tuning for Vision Transformers
- arxiv url: http://arxiv.org/abs/2310.05393v1
- Date: Tue, 10 Oct 2023 01:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:51:43.306848
- Title: Hierarchical Side-Tuning for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーの階層型サイドチューニング
- Authors: Weifeng Lin, Ziheng Wu, Jiayu Chen, Wentao Yang, Mingxin Huang, Jun
Huang, Lianwen Jin
- Abstract要約: 本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
- 参考スコア(独自算出の注目度): 34.55731467838914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pre-trained Vision Transformers (ViT) has consistently
demonstrated promising performance in the realm of visual recognition. However,
adapting large pre-trained models to various tasks poses a significant
challenge. This challenge arises from the need for each model to undergo an
independent and comprehensive fine-tuning process, leading to substantial
computational and memory demands. While recent advancements in
Parameter-efficient Transfer Learning (PETL) have demonstrated their ability to
achieve superior performance compared to full fine-tuning with a smaller subset
of parameter updates, they tend to overlook dense prediction tasks such as
object detection and segmentation. In this paper, we introduce Hierarchical
Side-Tuning (HST), a novel PETL approach that enables ViT transfer to various
downstream tasks effectively. Diverging from existing methods that exclusively
fine-tune parameters within input spaces or certain modules connected to the
backbone, we tune a lightweight and hierarchical side network (HSN) that
leverages intermediate activations extracted from the backbone and generates
multi-scale features to make predictions. To validate HST, we conducted
extensive experiments encompassing diverse visual tasks, including
classification, object detection, instance segmentation, and semantic
segmentation. Notably, our method achieves state-of-the-art average Top-1
accuracy of 76.0% on VTAB-1k, all while fine-tuning a mere 0.78M parameters.
When applied to object detection tasks on COCO testdev benchmark, HST even
surpasses full fine-tuning and obtains better performance with 49.7 box AP and
43.2 mask AP using Cascade Mask R-CNN.
- Abstract(参考訳): 微調整事前学習された視覚トランスフォーマー(vit)は、視覚認識の分野で一貫して有望な性能を示している。
しかし、様々なタスクに大規模な事前学習モデルを適用することは大きな課題となる。
この課題は、各モデルが独立して包括的な微調整プロセスを実行する必要性から生じ、計算とメモリの大幅な要求がもたらされる。
近年のPETL(パラメータ効率変換学習)の進歩は、パラメータ更新のサブセットが小さい完全微調整に比べて優れた性能を実現する能力を示しているが、オブジェクト検出やセグメンテーションのような密集した予測タスクは見過ごされる傾向にある。
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
入力空間内やバックボーンに接続された特定のモジュールにのみ微調整パラメータを割り当てる既存の手法と異なり、バックボーンから抽出された中間活性化を利用した軽量かつ階層的なサイドネットワーク(HSN)をチューニングし、マルチスケールな特徴を生成して予測する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど多様な視覚的タスクを含む広範な実験を行った。
特に,VTAB-1kにおける最先端平均Top-1精度76.0%を実現し,0.78Mパラメータを微調整した。
COCO testdevベンチマークのオブジェクト検出タスクに適用すると、HSTは完全な微調整を超え、Cascade Mask R-CNNを使用して49.7ボックスAPと43.2マスクAPでパフォーマンスが向上する。
関連論文リスト
- Beyond Task Vectors: Selective Task Arithmetic Based on Importance Metrics [0.0]
本稿では,タスク固有パラメータ融合によるマルチタスク性能向上を目的としたトレーニングフリーフレームワークであるtextbfunderlineSelective textbfunderlineTask textbfunderlineArithmetic underlinetextbf(STA)を紹介する。
実験により,STAはベンチマーク間で優れたマルチタスク性能を実現し,タスクを忘れる際の優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-25T06:59:16Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications [2.8161155726745237]
大規模マルチモーダルモデル(LMM)は、テキストや画像などの複数のモダリティを統合することで、複雑なデータを解釈し分析するように設計されている。
本稿では,視覚変換器(ViT)モデルと比較して,画像とテキストの両方を処理するプロンプトエンジニアリングLMMの適用性と有効性について検討する。
視覚的に明らかでないタスクでは、ViTモデルは25のマルウェアクラスの予測では97.11%、5つのマルウェアファミリーの予測では97.61%のF1スコアを達成した。
論文 参考訳(メタデータ) (2024-03-26T15:20:49Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。