論文の概要: Hint-Aug: Drawing Hints from Foundation Vision Transformers Towards
Boosted Few-Shot Parameter-Efficient Tuning
- arxiv url: http://arxiv.org/abs/2304.12520v3
- Date: Mon, 26 Jun 2023 06:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:59:11.959379
- Title: Hint-Aug: Drawing Hints from Foundation Vision Transformers Towards
Boosted Few-Shot Parameter-Efficient Tuning
- Title(参考訳): hint-aug: ファウンデーションビジョントランスフォーマーからのヒントをブーストされたマイナショットパラメーター効率のチューニングへ
- Authors: Zhongzhi Yu, Shang Wu, Yonggan Fu, Shunyao Zhang, Yingyan Lin
- Abstract要約: 我々はHint-based Data Augmentation(Hint-Aug)というフレームワークを提案する。
事前訓練されたFViTの学習機能により、チューニングサンプルの過度に適合した部分を増強することにより、ファウンデーション・ビジョン・トランスフォーマー(FViT)を数ショットチューニングで強化することを目的としている。
5つのデータセットと3つのパラメータ効率のチューニング技術に関する大規模な実験とアブレーション研究は、ヒント・オーグの有効性を一貫して検証している。
- 参考スコア(独自算出の注目度): 22.0296008705388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing demand for tuning foundation vision transformers (FViTs)
on downstream tasks, fully unleashing FViTs' potential under data-limited
scenarios (e.g., few-shot tuning) remains a challenge due to FViTs' data-hungry
nature. Common data augmentation techniques fall short in this context due to
the limited features contained in the few-shot tuning data. To tackle this
challenge, we first identify an opportunity for FViTs in few-shot tuning:
pretrained FViTs themselves have already learned highly representative features
from large-scale pretraining data, which are fully preserved during widely used
parameter-efficient tuning. We thus hypothesize that leveraging those learned
features to augment the tuning data can boost the effectiveness of few-shot
FViT tuning. To this end, we propose a framework called Hint-based Data
Augmentation (Hint-Aug), which aims to boost FViT in few-shot tuning by
augmenting the over-fitted parts of tuning samples with the learned features of
pretrained FViTs. Specifically, Hint-Aug integrates two key enablers: (1) an
Attentive Over-fitting Detector (AOD) to detect over-confident patches of
foundation ViTs for potentially alleviating their over-fitting on the few-shot
tuning data and (2) a Confusion-based Feature Infusion (CFI) module to infuse
easy-to-confuse features from the pretrained FViTs with the over-confident
patches detected by the above AOD in order to enhance the feature diversity
during tuning. Extensive experiments and ablation studies on five datasets and
three parameter-efficient tuning techniques consistently validate Hint-Aug's
effectiveness: 0.04% ~ 32.91% higher accuracy over the state-of-the-art (SOTA)
data augmentation method under various low-shot settings. For example, on the
Pet dataset, Hint-Aug achieves a 2.22% higher accuracy with 50% less training
data over SOTA data augmentation methods.
- Abstract(参考訳): 下流タスクにおけるファンデーション・ビジョン・トランスフォーマー(FViT)のチューニング需要が増大しているにもかかわらず、データ制限シナリオ(例:数ショットチューニング)下でのFViTのポテンシャルを完全に解放することは、FViTsのデータハングリーの性質のため、依然として課題である。
一般的なデータ拡張技術はこの文脈では、わずかなチューニングデータに含まれる機能に制限があるため、不足している。
事前学習されたFViT自身は、広く使われているパラメータ効率のチューニングで完全に保存されている大規模事前学習データから、非常に代表的な特徴をすでに習得している。
そこで我々は、これらの学習機能を活用してチューニングデータを増強することで、FViTチューニングの有効性を高めることができると仮定した。
そこで,本研究では,事前学習したfvitsの学習機能を用いて,サンプルの過剰に適合した部分の強化を行い,少数音調律におけるfvitの強化を目的とした,ヒントベースデータ拡張(hint-aug)というフレームワークを提案する。
特に、Hint-Augは、2つの重要なイネーブルを統合している: 1) ファンデーションViTの過信パッチを検出するための注意深い過剰適合検知器(AOD)、(2) コンフュージョンベースの特徴注入(CFI)モジュールは、事前訓練されたFViTから上記AODが検出した過信パッチを注入し、チューニング中の特徴の多様性を高める。
5つのデータセットと3つのパラメータ効率のチューニング技術に関する大規模な実験とアブレーション研究は、Hint-Augの有効性を一貫して検証している。
例えば、Petデータセットでは、Hint-AugはSOTAデータ拡張メソッドよりも50%少ないトレーニングデータで2.22%高い精度を達成する。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Bridging Sensor Gaps via Attention Gated Tuning for Hyperspectral Image Classification [9.82907639745345]
HSI分類法は高品質なラベル付きHSIを必要とするが、しばしば入手するのにコストがかかる。
本稿では,3重構造トランスモデルであるTri-Formerを提案する。
論文 参考訳(メタデータ) (2023-09-22T13:39:24Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated
Learning [21.79965380400454]
Vertical Learning(VFL)は、複数のデータオーナに対して、大きな重複するデータサンプルセットに関する機能のサブセットをそれぞれ保持して、有用なグローバルモデルを共同でトレーニングすることを可能にする。
VFLのために設計された既存のFSは、ノイズの多い特徴の数について事前知識を仮定するか、有用な特徴の訓練後のしきい値について事前知識を仮定する。
本稿では,FedSDG-FS(Federated Dual-Gate Based Feature Selection)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-21T03:09:45Z) - AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-12T08:58:54Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。