論文の概要: Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation
- arxiv url: http://arxiv.org/abs/2406.19341v3
- Date: Wed, 17 Jul 2024 01:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 21:47:53.622275
- Title: Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation
- Title(参考訳): 完全テスト時間適応のためのビジュアルコンディショニングの学習
- Authors: Yushun Tang, Shuoshuo Chen, Zhehan Kan, Yi Zhang, Qinghai Guo, Zhihai He,
- Abstract要約: トランスを用いた画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。
本稿では,ドメイン固有の特徴の長期的変動を捉えつつ,インスタンス固有の特徴の局所的変動を調節する二段階学習手法を提案する。
提案手法により,テスト時間適応性能を最大1.9%向上させることができる。
- 参考スコア(独自算出の注目度): 24.294049653744185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully test-time adaptation aims to adapt the network model based on sequential analysis of input samples during the inference stage to address the cross-domain performance degradation problem of deep neural networks. This work is based on the following interesting finding: in transformer-based image classification, the class token at the first transformer encoder layer can be learned to capture the domain-specific characteristics of target samples during test-time adaptation. This learned token, when combined with input image patch embeddings, is able to gradually remove the domain-specific information from the feature representations of input samples during the transformer encoding process, thereby significantly improving the test-time adaptation performance of the source model across different domains. We refer to this class token as visual conditioning token (VCT). To successfully learn the VCT, we propose a bi-level learning approach to capture the long-term variations of domain-specific characteristics while accommodating local variations of instance-specific characteristics. Experimental results on the benchmark datasets demonstrate that our proposed bi-level visual conditioning token learning method is able to achieve significantly improved test-time adaptation performance by up to 1.9%.
- Abstract(参考訳): 完全なテスト時間適応は、深層ニューラルネットワークのクロスドメイン性能劣化問題に対処するために、推論段階での入力サンプルのシーケンシャル分析に基づいてネットワークモデルを適用することを目的としている。
変換器に基づく画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。
この学習トークンは、入力画像パッチ埋め込みと組み合わせることで、トランスフォーマー符号化プロセス中に入力サンプルの特徴表現から徐々にドメイン固有の情報を除去し、異なるドメインにわたるソースモデルのテスト時間適応性能を大幅に向上させることができる。
このクラストークンをビジュアルコンディショニングトークン(VCT)と呼ぶ。
VCTの学習に成功するために,2段階の学習手法を提案する。
ベンチマークデータセットを用いた実験結果から,提案手法はテスト時間適応性能を最大1.9%向上させることができることがわかった。
関連論文リスト
- Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation [59.18151483767509]
テスト時間適応におけるドメインシフト補正のためのデュアルパストークンリフトを導入する。
次に、インターリーブされたトークン予測とドメインシフトトークンのパスとクラストークンのパスの間の更新を行う。
評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-08-26T02:33:47Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Zero-Shot Domain Adaptation with a Physics Prior [39.424545456601074]
従来のドメイン適応設定では、テストセットからラベルなしのデータサンプルを利用することで、あるドメインでトレーニングし、ターゲットドメインに適応する。
我々は、物理に基づく反射モデルから派生した視覚的帰納的先行を領域適応に活用する。
色不変層は,ネットワーク全体の特徴マップ活性化の日中分布シフトを減少させることを示す。
論文 参考訳(メタデータ) (2021-08-11T10:28:56Z) - Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers [141.70707071815653]
本稿では,検出変圧器の適応に特化して設計された新しいシーケンス特徴アライメント(SFA)法を提案する。
SFAはドメインクエリベースの機能アライメント(DQFA)モジュールとトークンワイド機能アライメント(TDA)モジュールで構成される。
3つの挑戦的なベンチマーク実験により、SFAは最先端のドメイン適応オブジェクト検出方法より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-27T07:17:12Z) - Self-Supervised Domain Adaptation with Consistency Training [0.2462953128215087]
画像分類における教師なし領域適応の問題点を考察する。
ラベルのないデータをある種の変換で拡張することにより、自己教師付きプレテキストタスクを作成する。
我々は、拡張データの表現を元のデータと整合するように強制する。
論文 参考訳(メタデータ) (2020-10-15T06:03:47Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。