論文の概要: Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning
- arxiv url: http://arxiv.org/abs/2203.09064v1
- Date: Thu, 17 Mar 2022 03:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:06:28.504802
- Title: Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning
- Title(参考訳): 数少ない学習のためのトランスフォーマーにおける学習とスペクトルトークンのプール化
- Authors: Yangji He, Weihan Liang, Dongyang Zhao, Hong-Yu Zhou, Weifeng Ge,
Yizhou Yu, and Wenqiang Zhang
- Abstract要約: ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
- 参考スコア(独自算出の注目度): 50.95116994162883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents new hierarchically cascaded transformers that can improve
data efficiency through attribute surrogates learning and spectral tokens
pooling. Vision transformers have recently been thought of as a promising
alternative to convolutional neural networks for visual recognition. But when
there is no sufficient data, it gets stuck in overfitting and shows inferior
performance. To improve data efficiency, we propose hierarchically cascaded
transformers that exploit intrinsic image structures through spectral tokens
pooling and optimize the learnable parameters through latent attribute
surrogates. The intrinsic image structure is utilized to reduce the ambiguity
between foreground content and background noise by spectral tokens pooling. And
the attribute surrogate learning scheme is designed to benefit from the rich
visual information in image-label pairs instead of simple visual concepts
assigned by their labels. Our Hierarchically Cascaded Transformers, called
HCTransformers, is built upon a self-supervised learning framework DINO and is
tested on several popular few-shot learning benchmarks.
In the inductive setting, HCTransformers surpass the DINO baseline by a large
margin of 9.7% 5-way 1-shot accuracy and 9.17% 5-way 5-shot accuracy on
miniImageNet, which demonstrates HCTransformers are efficient to extract
discriminative features. Also, HCTransformers show clear advantages over SOTA
few-shot classification methods in both 5-way 1-shot and 5-way 5-shot settings
on four popular benchmark datasets, including miniImageNet, tieredImageNet,
FC100, and CIFAR-FS. The trained weights and codes are available at
https://github.com/StomachCold/HCTransformers.
- Abstract(参考訳): 本稿では,属性サロゲート学習とスペクトルトークンプールによるデータ効率の向上が可能な階層型カスケードトランスを提案する。
ビジョントランスフォーマーは近年、視覚認識のための畳み込みニューラルネットワークの代替として期待されている。
しかし、十分なデータがなければ、オーバーフィッティングに悩まされ、パフォーマンスが低下します。
データ効率を向上させるために,スペクトルトークンプーリングによる固有画像構造を利用した階層的カスケード変換器を提案し,潜在属性サロゲートによる学習可能なパラメータを最適化する。
固有画像構造を利用して、スペクトルトークンプールによる前景内容と背景雑音とのあいまいさを低減する。
また、属性代理学習方式は、ラベルに割り当てられた単純な視覚概念の代わりに、画像ラベルペアの豊富な視覚情報を活用するように設計されている。
HCTransformersと呼ばれる私たちの階層的なカスケードトランスフォーマーは、自己教師付き学習フレームワークDINOの上に構築されており、人気のある数ショットの学習ベンチマークでテストされています。
インダクティブ設定では、HCTransformersはDINOベースラインを9.7%の5ウェイ1ショット精度と9.17%の5ウェイ5ショット精度で上回り、HCTransformersは識別特性の抽出に効率的であることを示す。
また、HCTransformersは、MiniImageNet、tyredImageNet、FC100、CIFAR-FSを含む4つの人気のあるベンチマークデータセットにおいて、5ウェイの1ショットと5ウェイの5ショット設定の両方でSOTAの少ショット分類方法よりも明確な利点を示している。
トレーニングされたウェイトとコードはhttps://github.com/StomachCold/HCTransformersで公開されている。
関連論文リスト
- SpectFormer: Frequency and Attention is what you need in a Vision
Transformer [28.01996628113975]
視覚変換器は画像認識タスクにうまく応用されている。
スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。
本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:27:17Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。