論文の概要: In Search of Lost Online Test-time Adaptation: A Survey
- arxiv url: http://arxiv.org/abs/2310.20199v3
- Date: Thu, 18 Jul 2024 07:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-20 00:02:04.559460
- Title: In Search of Lost Online Test-time Adaptation: A Survey
- Title(参考訳): オンラインテストタイム適応の損失の検索:サーベイ
- Authors: Zixin Wang, Yadan Luo, Liang Zheng, Zhuoxiao Chen, Sen Wang, Zi Huang,
- Abstract要約: 本稿では,オンラインテスト時間適応(OTTA)に関する総合的な調査を紹介する。
我々はOTTAテクニックを3つの主要なカテゴリに分類し、それらをモダンなバックボーンであるビジョントランスフォーマー(ViT)を用いてベンチマークする。
以上の結果から,トランスフォーマーは多彩なドメインシフトに対するレジリエンスを高めていることが明らかとなった。
- 参考スコア(独自算出の注目度): 40.68806005826287
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This article presents a comprehensive survey of online test-time adaptation (OTTA), focusing on effectively adapting machine learning models to distributionally different target data upon batch arrival. Despite the recent proliferation of OTTA methods, conclusions from previous studies are inconsistent due to ambiguous settings, outdated backbones, and inconsistent hyperparameter tuning, which obscure core challenges and hinder reproducibility. To enhance clarity and enable rigorous comparison, we classify OTTA techniques into three primary categories and benchmark them using a modern backbone, the Vision Transformer (ViT). Our benchmarks cover conventional corrupted datasets such as CIFAR-10/100-C and ImageNet-C, as well as real-world shifts represented by CIFAR-10.1, OfficeHome, and CIFAR-10-Warehouse. The CIFAR-10-Warehouse dataset includes a variety of variations from different search engines and synthesized data generated through diffusion models. To measure efficiency in online scenarios, we introduce novel evaluation metrics, including GFLOPs, wall clock time, and GPU memory usage, providing a clearer picture of the trade-offs between adaptation accuracy and computational overhead. Our findings diverge from existing literature, revealing that (1) transformers demonstrate heightened resilience to diverse domain shifts, (2) the efficacy of many OTTA methods relies on large batch sizes, and (3) stability in optimization and resistance to perturbations are crucial during adaptation, particularly when the batch size is 1. Based on these insights, we highlight promising directions for future research. Our benchmarking toolkit and source code are available at https://github.com/Jo-wang/OTTA_ViT_survey.
- Abstract(参考訳): 本稿では,オンラインテスト時間適応(OTTA)に関する総合的な調査を行い,バッチ到着時のターゲットデータに機械学習モデルを効果的に適応させることに着目した。
近年のOTTA法の普及にもかかわらず、従来の研究の結論は曖昧な設定、時代遅れのバックボーン、および不整合性ハイパーパラメータチューニングにより矛盾しており、これは未解決のコア課題と再現性を妨げている。
明瞭度を高め、厳密な比較を可能にするため、OTTA手法を3つの主要なカテゴリに分類し、モダンなバックボーンであるビジョントランスフォーマー(ViT)を用いてベンチマークする。
CIFAR-10.1、OfficeHome、CIFAR-10-Warehouseで表される実世界のシフトだけでなく、CIFAR-10/100-CやImageNet-Cといった従来の崩壊データセットについてもベンチマークを行った。
CIFAR-10-Warehouseデータセットには、異なる検索エンジンと拡散モデルによって生成された合成データから様々なバリエーションが含まれている。
オンラインシナリオの効率性を評価するために,GFLOP,壁時計時間,GPUメモリ使用量などの新たな評価指標を導入し,適応精度と計算オーバーヘッドのトレードオフを明確化する。
その結果,(1) 変圧器は多様な領域シフトに対するレジリエンスを高めること,(2) 多くのOTTA法の有効性は大きなバッチサイズに依存していること,(3) 適応時,特にバッチサイズが1。
これらの知見に基づき,今後の研究に向けての有望な方向性を強調した。
ベンチマークツールキットとソースコードはhttps://github.com/Jo-wang/OTTA_ViT_survey.comで公開されています。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs [6.456189487006878]
視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。
我々は、近年の手法の限界、特に意味のあるパッチ間の関係を活用できないことを特定する。
CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
論文 参考訳(メタデータ) (2024-07-07T05:39:25Z) - REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。
CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。
本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - On the Generalization Effects of Linear Transformations in Data
Augmentation [32.01435459892255]
データ拡張は、画像やテキストの分類タスクのようなアプリケーションのパフォーマンスを改善するための強力な技術である。
我々は線形変換の族を研究し、過度にパラメータ化された線形回帰設定におけるリッジ推定器への影響について研究する。
本稿では,モデルが変換データに対してどの程度不確実であるかによって,変換空間を探索する拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T04:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。