論文の概要: Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2205.09995v1
- Date: Fri, 20 May 2022 07:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:16:07.111945
- Title: Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning
- Title(参考訳): ファウショット学習のためのマスク誘導型視覚変換器(MG-ViT)
- Authors: Yuzhong Chen, Zhenxiang Xiao, Lin Zhao, Lu Zhang, Haixing Dai, David
Weizhong Liu, Zihao Wu, Changhe Li, Tuo Zhang, Changying Li, Dajiang Zhu,
Tianming Liu, Xi Jiang
- Abstract要約: 本稿では,視覚変換器(ViT)モデルを用いた効果的かつ効率的な数ショット学習を実現するために,新しいマスク誘導型視覚変換器(MG-ViT)を提案する。
MG-ViTモデルは、一般的な微調整ベースのViTモデルと比較して、性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 10.29251906347605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning with little data is challenging but often inevitable in various
application scenarios where the labeled data is limited and costly. Recently,
few-shot learning (FSL) gained increasing attention because of its
generalizability of prior knowledge to new tasks that contain only a few
samples. However, for data-intensive models such as vision transformer (ViT),
current fine-tuning based FSL approaches are inefficient in knowledge
generalization and thus degenerate the downstream task performances. In this
paper, we propose a novel mask-guided vision transformer (MG-ViT) to achieve an
effective and efficient FSL on ViT model. The key idea is to apply a mask on
image patches to screen out the task-irrelevant ones and to guide the ViT to
focus on task-relevant and discriminative patches during FSL. Particularly,
MG-ViT only introduces an additional mask operation and a residual connection,
enabling the inheritance of parameters from pre-trained ViT without any other
cost. To optimally select representative few-shot samples, we also include an
active learning based sample selection method to further improve the
generalizability of MG-ViT based FSL. We evaluate the proposed MG-ViT on both
Agri-ImageNet classification task and ACFR apple detection task with
gradient-weighted class activation mapping (Grad-CAM) as the mask. The
experimental results show that the MG-ViT model significantly improves the
performance when compared with general fine-tuning based ViT models, providing
novel insights and a concrete approach towards generalizing data-intensive and
large-scale deep learning models for FSL.
- Abstract(参考訳): 少ないデータで学ぶことは難しいが、ラベル付きデータに制限がありコストがかかるさまざまなアプリケーションシナリオでは避けられない。
近年,少数のサンプルのみを含む新しいタスクへの事前知識の一般化により,少数ショット学習(fsl)が注目を集めている。
しかし、視覚変換器(ViT)のようなデータ集約モデルでは、現在の微調整ベースのFSLアプローチは知識一般化において非効率であり、従って下流タスク性能を劣化させる。
本稿では,vitモデル上で効果的かつ効率的なfslを実現するためのマスク誘導型視覚トランスフォーマ(mg-vit)を提案する。
キーとなるアイデアは、イメージパッチにマスクを適用して、タスク関連でないものをスクリーニングし、ViTがFSL中のタスク関連および識別パッチに集中するように誘導することである。
特にMG-ViTはマスク操作と残留接続のみを導入し、トレーニング済みのViTからのパラメータの継承を他のコストなしで行えるようにした。
また, MG-ViT を用いた FSL の一般化性を向上させるために, 能動的学習に基づくサンプル選択手法を最適に選択する。
我々は,勾配重み付きクラスアクティベーションマッピング(Grad-CAM)をマスクとして,Agri-ImageNet分類タスクとACFRリンゴ検出タスクの両方でMG-ViTを提案する。
実験の結果,mg-vitモデルは,一般の微調整型vitモデルに比べ,性能が著しく向上し,新たな洞察とfslのためのデータ集約型および大規模ディープラーニングモデルの一般化に向けた具体的なアプローチが得られた。
関連論文リスト
- Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。