論文の概要: Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance
- arxiv url: http://arxiv.org/abs/2110.06893v3
- Date: Fri, 26 May 2023 15:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:35:39.101090
- Title: Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance
- Title(参考訳): トランスファービリティのメトリクス、その特異性、安定性、パフォーマンスを再考する
- Authors: Shibal Ibrahim, Natalia Ponomareva, Rahul Mazumder
- Abstract要約: 小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
- 参考スコア(独自算出の注目度): 5.650647159993238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning of large pre-trained image and language models on small
customized datasets has become increasingly popular for improved prediction and
efficient use of limited resources. Fine-tuning requires identification of best
models to transfer-learn from and quantifying transferability prevents
expensive re-training on all of the candidate models/tasks pairs. In this
paper, we show that the statistical problems with covariance estimation drive
the poor performance of H-score -- a common baseline for newer metrics -- and
propose shrinkage-based estimator. This results in up to 80% absolute gain in
H-score correlation performance, making it competitive with the
state-of-the-art LogME measure. Our shrinkage-based H-score is
$3\times$-10$\times$ faster to compute compared to LogME. Additionally, we look
into a less common setting of target (as opposed to source) task selection. We
demonstrate previously overlooked problems in such settings with different
number of labels, class-imbalance ratios etc. for some recent metrics e.g.,
NCE, LEEP that resulted in them being misrepresented as leading measures. We
propose a correction and recommend measuring correlation performance against
relative accuracy in such settings. We support our findings with ~164,000
(fine-tuning trials) experiments on both vision models and graph neural
networks.
- Abstract(参考訳): 小さなカスタマイズデータセット上での大規模な事前学習画像と言語モデルの微調整は、限られたリソースの予測と効率的な使用を改善するために、ますます人気が高まっている。
微調整には、転送可能性の定量化と転送可能性から最良のモデルの識別が必要であり、全ての候補モデル/タスクペアで高価な再トレーニングが防止される。
本稿では,共分散推定による統計的問題は,新しいメトリクスの共通ベースラインであるh-scoreの性能低下を招き,縮小に基づく推定器を提案する。
その結果,Hスコア相関性能は最大80%向上し,最先端のLogME測定値と競合する結果となった。
縮小ベースのh-scoreはlogmeに比べて計算速度が$3\times$-10$\times$高速です。
さらに、ターゲットの(ソースではなく)タスク選択の一般的でない設定についても検討します。
ラベル数やクラス不均衡率など,近年の指標であるnceやleepなどでは,これまで見過ごされていた問題点が,主要な指標として誤表現された。
このような状況下での相関性能と相対精度の相関を補正して評価することを推奨する。
我々は,視覚モデルとグラフニューラルネットワークの両方について,約164,000の実験を行った。
関連論文リスト
- Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。
本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文 参考訳(メタデータ) (2024-08-16T19:08:27Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed
effects deep learning for clustered non-iid data [0.6719751155411076]
この研究は、モデル適合性、固定効果共分散係数、予測信頼度について、容易に解釈可能な統計メトリクスを作成する能力を示す。
本実験では,UQ法が有益であるだけでなく,いくつかのUQ法が元のARMED法の性能を維持している。
論文 参考訳(メタデータ) (2022-11-29T02:50:48Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。