論文の概要: Robustifying Vision Transformer without Retraining from Scratch by
Test-Time Class-Conditional Feature Alignment
- arxiv url: http://arxiv.org/abs/2206.13951v1
- Date: Tue, 28 Jun 2022 12:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:38:51.217700
- Title: Robustifying Vision Transformer without Retraining from Scratch by
Test-Time Class-Conditional Feature Alignment
- Title(参考訳): テスト時間等級特徴アライメントによるスクラッチからの制約のないロバスト化視覚変換器
- Authors: Takeshi Kojima, Yutaka Matsuo, Yusuke Iwasawa
- Abstract要約: クラス条件特徴アライメント(CFA)と呼ばれる新しいテスト時間適応手法を提案する。
CFAは、クラス条件分布の差異と、ソースとターゲットの隠れ表現の全体分布の差異を、オンライン的に最小化する。
BeiTのバックボーンを使用して、CFAはImageNet-Cで19.8%のエラー率を獲得し、既存のテスト時間適応ベースライン44.0%を上回っている。
- 参考スコア(独自算出の注目度): 24.13081092186357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) is becoming more popular in image processing.
Specifically, we investigate the effectiveness of test-time adaptation (TTA) on
ViT, a technique that has emerged to correct its prediction during test-time by
itself. First, we benchmark various test-time adaptation approaches on ViT-B16
and ViT-L16. It is shown that the TTA is effective on ViT and the
prior-convention (sensibly selecting modulation parameters) is not necessary
when using proper loss function. Based on the observation, we propose a new
test-time adaptation method called class-conditional feature alignment (CFA),
which minimizes both the class-conditional distribution differences and the
whole distribution differences of the hidden representation between the source
and target in an online manner. Experiments of image classification tasks on
common corruption (CIFAR-10-C, CIFAR-100-C, and ImageNet-C) and domain
adaptation (digits datasets and ImageNet-Sketch) show that CFA stably
outperforms the existing baselines on various datasets. We also verify that CFA
is model agnostic by experimenting on ResNet, MLP-Mixer, and several ViT
variants (ViT-AugReg, DeiT, and BeiT). Using BeiT backbone, CFA achieves 19.8%
top-1 error rate on ImageNet-C, outperforming the existing test-time adaptation
baseline 44.0%. This is a state-of-the-art result among TTA methods that do not
need to alter training phase.
- Abstract(参考訳): Vision Transformer (ViT) は画像処理で人気が高まっている。
具体的には,vitに対するテスト時間適応(tta)の有効性について検討した。
まず、VT-B16とVT-L16の様々なテスト時間適応手法をベンチマークする。
TTA は ViT に対して有効であり, 適切な損失関数を使用する場合, 事前回避(適応パラメータの選択に敏感な)は不要である。
そこで本研究では,クラス条件特徴アライメント(cfa)と呼ばれる新しいテスト時間適応手法を提案する。
共通汚職に関する画像分類タスク(CIFAR-10-C, CIFAR-100-C, ImageNet-C)とドメイン適応(デジタルデータセットとImageNet-Sketch)の実験は、CFAが既存のベースラインを様々なデータセットで安定的に上回っていることを示している。
また、CFAがResNet、MLP-Mixer、およびいくつかのViT変種(ViT-AugReg、DeiT、BeiT)を実験することで、モデル非依存であることを検証する。
BeiTのバックボーンを使用して、CFAはImageNet-Cで19.8%のエラー率を獲得し、既存のテスト時間適応ベースライン44.0%を上回っている。
これは、トレーニングフェーズを変更する必要のないTTAメソッドの最先端の結果である。
関連論文リスト
- Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - A Probabilistic Framework for Lifelong Test-Time Adaptation [34.07074915005366]
テスト時間適応(TTA)は、異なるターゲットドメインから与えられたテスト入力(s)の推測時間で事前訓練されたソースモデルを更新する問題である。
PETAL(Probabilistic lifElong Test-time Adaptation with seLf-training prior)は,確率的アプローチを用いて生涯TTAを解決する。
本手法は, 様々なベンチマークにおいて, オンライン・ライフタイム・テスト・タイム・アダプティブの最先端技術よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-12-19T18:42:19Z) - Robust Mean Teacher for Continual and Gradual Test-Time Adaptation [5.744133015573047]
経時的テスト時間適応(TTA)は、単一のドメインシフトだけでなく、一連のシフトも考慮している。
我々は,TTAの設定において,平均教師の整合性損失として対称的クロスエントロピーが適していることを示す。
提案手法は, 連続的, 段階的評価ベンチマークにおいて, RMT (Robust mean teacher) の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-23T16:14:45Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。
メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。
この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-30T09:33:38Z) - Tent: Fully Test-time Adaptation by Entropy Minimization [77.85911673550851]
モデルは、テスト中に新しいデータや異なるデータに一般化するように適応する必要があります。
この完全なテスト時間適応の設定では、モデルはテストデータとそれ自身のパラメータしか持たない。
実験エントロピー最小化(tent): 予測のエントロピーによって測定された信頼度に対するモデルを最適化する。
論文 参考訳(メタデータ) (2020-06-18T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。