論文の概要: Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance
- arxiv url: http://arxiv.org/abs/2110.06893v1
- Date: Wed, 13 Oct 2021 17:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 16:17:49.545330
- Title: Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance
- Title(参考訳): トランスファービリティのメトリクス、その特異性、安定性、パフォーマンスを再考する
- Authors: Shibal Ibrahim, Natalia Ponomareva, Rahul Mazumder
- Abstract要約: 小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
対象(ソースではなく)タスク選択の設定において,これまで見過ごされていた問題を特定する。
- 参考スコア(独自算出の注目度): 7.820667552233989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning of large pre-trained image and language models on small
customized datasets has become increasingly popular for improved prediction and
efficient use of limited resources. Fine-tuning requires identification of best
models to transfer-learn from and quantifying transferability prevents
expensive re-training on all of the candidate models/tasks pairs. We show that
the statistical problems with covariance estimation drive the poor performance
of H-score [Bao et al., 2019] -- a common baseline for newer metrics -- and
propose shrinkage-based estimator. This results in up to 80% absolute gain in
H-score correlation performance, making it competitive with the
state-of-the-art LogME measure by You et al. [2021]. Our shrinkage-based
H-score is 3-55 times faster to compute compared to LogME. Additionally, we
look into a less common setting of target (as opposed to source) task
selection. We identify previously overlooked problems in such settings with
different number of labels, class-imbalance ratios etc. for some recent metrics
e.g., LEEP [Nguyen et al., 2020] that resulted in them being misrepresented as
leading measures. We propose a correction and recommend measuring correlation
performance against relative accuracy in such settings. We also outline the
difficulties of comparing feature-dependent metrics, both supervised (e.g.
H-score) and unsupervised measures (e.g., Maximum Mean Discrepancy [Long et
al., 2015]), across source models/layers with different feature embedding
dimension. We show that dimensionality reduction methods allow for meaningful
comparison across models and improved performance of some of these measures. We
investigate performance of 14 different supervised and unsupervised metrics and
demonstrate that even unsupervised metrics can identify the leading models for
domain adaptation. We support our findings with ~65,000 (fine-tuning trials)
experiments.
- Abstract(参考訳): 小さなカスタマイズデータセット上での大規模な事前学習画像と言語モデルの微調整は、限られたリソースの予測と効率的な使用を改善するために、ますます人気が高まっている。
微調整には、転送可能性の定量化と転送可能性から最良のモデルの識別が必要であり、全ての候補モデル/タスクペアで高価な再トレーニングが防止される。
共分散推定の統計的問題は,Hスコア[Bao et al., 2019](新しいメトリクスの共通基盤である)の性能の低下を招き,縮小に基づく推定器を提案する。
その結果,Hスコア相関性能は最大80%向上し,Youらによる最先端のLogME指標と競合する結果となった。
[2021].
縮小ベースのh-scoreはlogmeに比べて計算速度が3-55倍速い。
さらに、ターゲットの(ソースではなく)タスク選択の一般的でない設定についても検討します。
本研究では, ラベル数, クラス不均衡率などの異なる設定において, LEEP (Nguyen et al., 2020) などの最近の指標について, 従来見過ごされていた問題を, 主要な指標として誤って表現した。
このような状況下での相関性能と相対精度の相関を補正して評価することを推奨する。
また,教師付き(h-scoreなど)と教師なし測度(例えば,最大平均不一致(long et al., 2015])の両方を,特徴埋め込み次元の異なるソースモデル/レイヤ間で比較することの難しさを概説する。
次元性低減法によって,モデル間の有意義な比較が可能となり,これらの測定値の性能が向上した。
我々は14の異なる教師付きメトリクスと教師なしメトリクスのパフォーマンスを調査し、教師なしメトリクスでさえドメイン適応の主要なモデルを識別できることを実証します。
約65,000(微調整試験)の実験を実施。
関連論文リスト
- Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。
本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文 参考訳(メタデータ) (2024-08-16T19:08:27Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed
effects deep learning for clustered non-iid data [0.6719751155411076]
この研究は、モデル適合性、固定効果共分散係数、予測信頼度について、容易に解釈可能な統計メトリクスを作成する能力を示す。
本実験では,UQ法が有益であるだけでなく,いくつかのUQ法が元のARMED法の性能を維持している。
論文 参考訳(メタデータ) (2022-11-29T02:50:48Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。