Fugu-MT 論文翻訳(概要): Hierarchical Side-Tuning for Vision Transformers

論文の概要: Hierarchical Side-Tuning for Vision Transformers

arxiv url: http://arxiv.org/abs/2310.05393v2
Date: Tue, 10 Oct 2023 01:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 07:38:45.903288
Title: Hierarchical Side-Tuning for Vision Transformers
Title（参考訳）: 視覚トランスフォーマーの階層型サイドチューニング
Authors: Weifeng Lin, Ziheng Wu, Jiayu Chen, Wentao Yang, Mingxin Huang, Jun Huang, Lianwen Jin
Abstract要約: 本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。 HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。 VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
参考スコア（独自算出の注目度）: 34.55731467838914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning pre-trained Vision Transformers (ViT) has consistently demonstrated promising performance in the realm of visual recognition. However, adapting large pre-trained models to various tasks poses a significant challenge. This challenge arises from the need for each model to undergo an independent and comprehensive fine-tuning process, leading to substantial computational and memory demands. While recent advancements in Parameter-efficient Transfer Learning (PETL) have demonstrated their ability to achieve superior performance compared to full fine-tuning with a smaller subset of parameter updates, they tend to overlook dense prediction tasks such as object detection and segmentation. In this paper, we introduce Hierarchical Side-Tuning (HST), a novel PETL approach that enables ViT transfer to various downstream tasks effectively. Diverging from existing methods that exclusively fine-tune parameters within input spaces or certain modules connected to the backbone, we tune a lightweight and hierarchical side network (HSN) that leverages intermediate activations extracted from the backbone and generates multi-scale features to make predictions. To validate HST, we conducted extensive experiments encompassing diverse visual tasks, including classification, object detection, instance segmentation, and semantic segmentation. Notably, our method achieves state-of-the-art average Top-1 accuracy of 76.0% on VTAB-1k, all while fine-tuning a mere 0.78M parameters. When applied to object detection tasks on COCO testdev benchmark, HST even surpasses full fine-tuning and obtains better performance with 49.7 box AP and 43.2 mask AP using Cascade Mask R-CNN.
Abstract（参考訳）: 微調整事前学習された視覚トランスフォーマー(vit)は、視覚認識の分野で一貫して有望な性能を示している。しかし、様々なタスクに大規模な事前学習モデルを適用することは大きな課題となる。この課題は、各モデルが独立して包括的な微調整プロセスを実行する必要性から生じ、計算とメモリの大幅な要求がもたらされる。近年のPETL(パラメータ効率変換学習)の進歩は、パラメータ更新のサブセットが小さい完全微調整に比べて優れた性能を実現する能力を示しているが、オブジェクト検出やセグメンテーションのような密集した予測タスクは見過ごされる傾向にある。本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。入力空間内やバックボーンに接続された特定のモジュールにのみ微調整パラメータを割り当てる既存の手法と異なり、バックボーンから抽出された中間活性化を利用した軽量かつ階層的なサイドネットワーク(HSN)をチューニングし、マルチスケールな特徴を生成して予測する。 HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど多様な視覚的タスクを含む広範な実験を行った。特に,VTAB-1kにおける最先端平均Top-1精度76.0%を実現し,0.78Mパラメータを微調整した。 COCO testdevベンチマークのオブジェクト検出タスクに適用すると、HSTは完全な微調整を超え、Cascade Mask R-CNNを使用して49.7ボックスAPと43.2マスクAPでパフォーマンスが向上する。

関連論文リスト

Enhancing Visual Prompting through Expanded Transformation Space and Overfitting Mitigation [0.9137554315375919]
ビジュアルプロンプト(VP)は、トレーニング済みの視覚モデルを下流タスクに適応させるための、パラメータ効率の良い微調整手法として期待されている。本稿では,ACAVP(Affine, Color, Additive Visual Prompting)を提案する。 ACAVPはVP法間で最先端の精度を達成し、平均精度で線形探索を超越し、分布シフトに優れたロバスト性を示す。
論文参考訳（メタデータ） (2025-10-09T06:08:15Z)
Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks [43.473390101413166]
視覚変換のための自己監督学習(ViTs)は、近年、様々なコンピュータビジョンタスクの事前学習戦略としてかなりの可能性を示している。本研究の目的は,画像分類とセグメント化タスクにまたがる未修正特徴の使用を体系的に評価することで,ギャップを埋めることである。
論文参考訳（メタデータ） (2025-09-18T11:46:07Z)
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
Beyond Task Vectors: Selective Task Arithmetic Based on Importance Metrics [0.0]
本稿では,タスク固有パラメータ融合によるマルチタスク性能向上を目的としたトレーニングフリーフレームワークであるtextbfunderlineSelective textbfunderlineTask textbfunderlineArithmetic underlinetextbf(STA)を紹介する。実験により,STAはベンチマーク間で優れたマルチタスク性能を実現し,タスクを忘れる際の優れた性能を示した。
論文参考訳（メタデータ） (2024-11-25T06:59:16Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。 CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。 CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文参考訳（メタデータ） (2024-08-27T11:07:19Z)
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications [2.8161155726745237]
大規模マルチモーダルモデル(LMM)は、テキストや画像などの複数のモダリティを統合することで、複雑なデータを解釈し分析するように設計されている。本稿では,視覚変換器(ViT)モデルと比較して,画像とテキストの両方を処理するプロンプトエンジニアリングLMMの適用性と有効性について検討する。視覚的に明らかでないタスクでは、ViTモデルは25のマルウェアクラスの予測では97.11%、5つのマルウェアファミリーの予測では97.61%のF1スコアを達成した。
論文参考訳（メタデータ） (2024-03-26T15:20:49Z)
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark [97.8968058408759]
事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに顕著な適応性を示した。これらのモデルが数十億または数兆のパラメータにスケールするにつれて、計算と記憶の要求が高いため、従来の完全な微調整はますます非現実的になっている。パラメータ効率の良いファインチューニング(PEFT)は、モデルパラメータを最小限に調整しながら、完全なファインチューニングに匹敵するパフォーマンスを実現するための、有望な代替手段として登場した。
論文参考訳（メタデータ） (2024-02-03T19:12:20Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2023-01-06T08:42:05Z)
Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-03T09:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。