論文の概要: Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line
- arxiv url: http://arxiv.org/abs/2310.04941v2
- Date: Thu, 07 Nov 2024 21:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:01.201283
- Title: Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line
- Title(参考訳): テスト時間適応はより正確な精度と一致を誘導する
- Authors: Eungyeup Kim, Mingjie Sun, Christina Baek, Aditi Raghunathan, J. Zico Kolter,
- Abstract要約: 最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
- 参考スコア(独自算出の注目度): 65.14099135546594
- License:
- Abstract: Recently, Miller et al. (2021) and Baek et al. (2022) empirically demonstrated strong linear correlations between in-distribution (ID) versus out-of-distribution (OOD) accuracy and agreement. These trends, coined accuracy-on-the-line (ACL) and agreement-on-the-line (AGL), enable OOD model selection and performance estimation without labeled data. However, these phenomena also break for certain shifts, such as CIFAR10-C Gaussian Noise, posing a critical bottleneck. In this paper, we make a key finding that recent test-time adaptation (TTA) methods not only improve OOD performance, but drastically strengthen the ACL and AGL trends in models, even in shifts where models showed very weak correlations before. To analyze this, we revisit the theoretical conditions from Miller et al. (2021) that outline the types of distribution shifts needed for perfect ACL in linear models. Surprisingly, these conditions are satisfied after applying TTA to deep models in the penultimate feature embedding space. In particular, TTA causes the data distribution to collapse complex shifts into those can be expressed by a singular scaling variable in the feature space. Our results show that by combining TTA with AGL-based estimation methods, we can estimate the OOD performance of models with high precision for a broader set of distribution shifts. This lends us a simple system for selecting the best hyperparameters and adaptation strategy without any OOD labeled data.
- Abstract(参考訳): 近年、Miller et al (2021) と Baek et al (2022) は、分布内(ID) と分布外(OOD) の精度と一致の強い線形相関を実証的に証明している。
これらの傾向は, ラベル付きデータなしでOODモデルの選択と性能評価を可能にする。
しかし、これらの現象は、CIFAR10-C ガウスノイズのような特定のシフトにも影響し、重大なボトルネックを生じさせる。
本稿では,最近のテスト時間適応(TTA)手法がOOD性能を向上するだけでなく,モデルにおけるACLとAGLのトレンドを大幅に強化することを示す。
これを解析するために、線形モデルにおける完全ACLに必要な分布シフトのタイプを概説するMiller et al (2021) の理論的条件を再検討する。
驚くべきことに、これらの条件は、TTAを最小特徴埋め込み空間の深部モデルに適用した後に満たされる。
特に、TTAは、データ分布が複素シフトを崩壊させる原因となり、特徴空間内の特異なスケーリング変数で表現できる。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
これにより、OODラベル付きデータなしで最適なハイパーパラメータと適応戦略を選択するための簡単なシステムが得られる。
関連論文リスト
- Exploring Patterns Behind Sports [3.2838877620203935]
本稿では、ARIMAとLSTMを組み合わせたハイブリッドモデルを用いて、時系列予測のための包括的なフレームワークを提案する。
このモデルには埋め込みやPCAといった機能エンジニアリング技術が組み込まれており、生データを低次元の表現に変換する。
論文 参考訳(メタデータ) (2025-02-11T11:51:07Z) - Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Quality In / Quality Out: Data quality more relevant than model choice in anomaly detection with the UGR'16 [0.29998889086656577]
ベンチマークデータセットの比較的小さな変更は、考慮された特定のML手法よりも、モデルパフォーマンスに著しく影響することを示します。
また、不正確なラベル付けの結果、測定されたモデル性能が不確かであることも示す。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - A Data-driven feature selection and machine-learning model benchmark for
the prediction of longitudinal dispersion coefficient [29.58577229101903]
縦方向分散(LD)係数の正確な予測は、関連するシミュレーションにおいて性能の飛躍をもたらすことができる。
本研究では, 蒸留した局所最適値と代表MLモデルとの数値比較により, 大域的最適特徴集合を提案した。
その結果,サポートベクタマシンは他のモデルよりも大幅に性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-07-16T09:50:38Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。