論文の概要: Fully Attentional Networks with Self-emerging Token Labeling
- arxiv url: http://arxiv.org/abs/2401.03844v1
- Date: Mon, 8 Jan 2024 12:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:45:53.342194
- Title: Fully Attentional Networks with Self-emerging Token Labeling
- Title(参考訳): 自己重み付きトークンラベル付き完全注意ネットワーク
- Authors: Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar,
Yingjie Lao, Jose M. Alvarez
- Abstract要約: 我々は、意味的に意味のあるパッチトークンラベルを生成するためにFANトークンラベル(FAN-TL)をトレーニングし、その後、トークンラベルとオリジナルクラスラベルの両方を使用するFAN学生モデルトレーニングステージを作成した。
提案したSTLフレームワークでは,ImageNet-1KおよびImageNet-C上で84.8%のTop-1精度と42.1%のmCEを実現し,余分なデータを使用しないImageNet-A(46.1%)とImageNet-R(56.6%)の新たな最先端設定を行う。
- 参考スコア(独自算出の注目度): 108.53230681047617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies indicate that Vision Transformers (ViTs) are robust against
out-of-distribution scenarios. In particular, the Fully Attentional Network
(FAN) - a family of ViT backbones, has achieved state-of-the-art robustness. In
this paper, we revisit the FAN models and improve their pre-training with a
self-emerging token labeling (STL) framework. Our method contains a two-stage
training framework. Specifically, we first train a FAN token labeler (FAN-TL)
to generate semantically meaningful patch token labels, followed by a FAN
student model training stage that uses both the token labels and the original
class label. With the proposed STL framework, our best model based on
FAN-L-Hybrid (77.3M parameters) achieves 84.8% Top-1 accuracy and 42.1% mCE on
ImageNet-1K and ImageNet-C, and sets a new state-of-the-art for ImageNet-A
(46.1%) and ImageNet-R (56.6%) without using extra data, outperforming the
original FAN counterpart by significant margins. The proposed framework also
demonstrates significantly enhanced performance on downstream tasks such as
semantic segmentation, with up to 1.7% improvement in robustness over the
counterpart model. Code is available at https://github.com/NVlabs/STL.
- Abstract(参考訳): 近年の研究では、ViT(Vision Transformer)が配布外シナリオに対して堅牢であることが示されている。
特に、VTバックボーンのファミリーであるFully Attentional Network (FAN)は最先端の堅牢性を実現している。
本稿では,FANモデルを再検討し,STL(Self-emerging token labeling)フレームワークを用いて事前学習を改善する。
本手法は2段階のトレーニングフレームワークを含む。
具体的には,まずfan token labeler (fan-tl) を訓練し,意味的に有意義なpatch token labelsを生成する。
提案したSTLフレームワークでは、FAN-L-Hybrid(77.3Mパラメータ)に基づく最良のモデルが、ImageNet-1KおよびImageNet-C上で84.8%のTop-1精度と42.1%のmCEを実現し、余分なデータを使用しずにImageNet-A(46.1%)とImageNet-R(56.6%)の新たな最先端を設定。
提案するフレームワークでは,セマンティックセグメンテーションなどの下流タスクのパフォーマンスも大幅に向上し,モデルのロバスト性も最大1.7%向上した。
コードはhttps://github.com/NVlabs/STLで入手できる。
関連論文リスト
- SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers [20.045277771042787]
視覚変換器(ViT)は、様々な視覚認識タスクにおいて、常に顕著な性能を示してきた。
空間自己相関トークン分析(SATA)と呼ばれる新しい手法を導入し,ViTのロバスト性を高める。
SATAは、リトレーニングや微調整を必要とせずに、既存のViTベースラインにシームレスに統合する。
論文 参考訳(メタデータ) (2024-09-30T01:18:40Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Elastic Weight Consolidation Improves the Robustness of Self-Supervised
Learning Methods under Transfer [4.2141621237414615]
自己教師付き表現学習(SSL)手法は、下流タスクの微調整に有効なラベルなし初期条件を提供する。
我々はベイジアン連続学習のレンズの下でSSLの微調整を再解釈し、Elastic Weight Consolidation (EWC)フレームワークによる正規化を検討する。
初期SSLバックボーンに対する自己正規化は、ウォーターバードの最低サブグループ性能を5%改善し、Celeb-Aを2%向上させることを示した。
論文 参考訳(メタデータ) (2022-10-28T19:00:25Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - FixMatch: Simplifying Semi-Supervised Learning with Consistency and
Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。
本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。
筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2020-01-21T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。