Fugu-MT 論文翻訳(概要): Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance

論文の概要: Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance

arxiv url: http://arxiv.org/abs/2110.06893v1
Date: Wed, 13 Oct 2021 17:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-14 16:17:49.545330
Title: Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance
Title（参考訳）: トランスファービリティのメトリクス、その特異性、安定性、パフォーマンスを再考する
Authors: Shibal Ibrahim, Natalia Ponomareva, Rahul Mazumder
Abstract要約: 小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。対象(ソースではなく)タスク選択の設定において,これまで見過ごされていた問題を特定する。
参考スコア（独自算出の注目度）: 7.820667552233989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning of large pre-trained image and language models on small customized datasets has become increasingly popular for improved prediction and efficient use of limited resources. Fine-tuning requires identification of best models to transfer-learn from and quantifying transferability prevents expensive re-training on all of the candidate models/tasks pairs. We show that the statistical problems with covariance estimation drive the poor performance of H-score [Bao et al., 2019] -- a common baseline for newer metrics -- and propose shrinkage-based estimator. This results in up to 80% absolute gain in H-score correlation performance, making it competitive with the state-of-the-art LogME measure by You et al. [2021]. Our shrinkage-based H-score is 3-55 times faster to compute compared to LogME. Additionally, we look into a less common setting of target (as opposed to source) task selection. We identify previously overlooked problems in such settings with different number of labels, class-imbalance ratios etc. for some recent metrics e.g., LEEP [Nguyen et al., 2020] that resulted in them being misrepresented as leading measures. We propose a correction and recommend measuring correlation performance against relative accuracy in such settings. We also outline the difficulties of comparing feature-dependent metrics, both supervised (e.g. H-score) and unsupervised measures (e.g., Maximum Mean Discrepancy [Long et al., 2015]), across source models/layers with different feature embedding dimension. We show that dimensionality reduction methods allow for meaningful comparison across models and improved performance of some of these measures. We investigate performance of 14 different supervised and unsupervised metrics and demonstrate that even unsupervised metrics can identify the leading models for domain adaptation. We support our findings with ~65,000 (fine-tuning trials) experiments.
Abstract（参考訳）: 小さなカスタマイズデータセット上での大規模な事前学習画像と言語モデルの微調整は、限られたリソースの予測と効率的な使用を改善するために、ますます人気が高まっている。微調整には、転送可能性の定量化と転送可能性から最良のモデルの識別が必要であり、全ての候補モデル/タスクペアで高価な再トレーニングが防止される。共分散推定の統計的問題は,Hスコア[Bao et al., 2019](新しいメトリクスの共通基盤である)の性能の低下を招き,縮小に基づく推定器を提案する。その結果,Hスコア相関性能は最大80%向上し,Youらによる最先端のLogME指標と競合する結果となった。 [2021]. 縮小ベースのh-scoreはlogmeに比べて計算速度が3-55倍速い。さらに、ターゲットの(ソースではなく)タスク選択の一般的でない設定についても検討します。本研究では, ラベル数, クラス不均衡率などの異なる設定において, LEEP (Nguyen et al., 2020) などの最近の指標について, 従来見過ごされていた問題を, 主要な指標として誤って表現した。このような状況下での相関性能と相対精度の相関を補正して評価することを推奨する。また,教師付き(h-scoreなど)と教師なし測度(例えば,最大平均不一致(long et al., 2015])の両方を,特徴埋め込み次元の異なるソースモデル/レイヤ間で比較することの難しさを概説する。次元性低減法によって,モデル間の有意義な比較が可能となり,これらの測定値の性能が向上した。我々は14の異なる教師付きメトリクスと教師なしメトリクスのパフォーマンスを調査し、教師なしメトリクスでさえドメイン適応の主要なモデルを識別できることを実証します。約65,000(微調整試験)の実験を実施。

関連論文リスト

Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-04T11:09:47Z)
Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文参考訳（メタデータ） (2024-08-16T19:08:27Z)
PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。 PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-10T08:02:20Z)
Stabilizing Subject Transfer in EEG Classification with Divergence Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文参考訳（メタデータ） (2023-10-12T23:06:52Z)
Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文参考訳（メタデータ） (2023-06-26T13:06:34Z)
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文参考訳（メタデータ） (2023-04-20T07:29:23Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Semi-Supervised Deep Regression with Uncertainty Consistency and Variational Model Ensembling via Bayesian Neural Networks [31.67508478764597]
我々は,半教師付き回帰,すなわち不確実連続変分モデル組立(UCVME)に対する新しいアプローチを提案する。整合性損失は不確実性評価を著しく改善し,不整合回帰の下では,高品質な擬似ラベルをより重要視することができる。実験の結果,本手法は様々なタスクにおける最先端の代替手段よりも優れており,フルラベルを用いた教師付き手法と競合する可能性が示唆された。
論文参考訳（メタデータ） (2023-02-15T10:40:51Z)
UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed effects deep learning for clustered non-iid data [0.6719751155411076]
この研究は、モデル適合性、固定効果共分散係数、予測信頼度について、容易に解釈可能な統計メトリクスを作成する能力を示す。本実験では,UQ法が有益であるだけでなく,いくつかのUQ法が元のARMED法の性能を維持している。
論文参考訳（メタデータ） (2022-11-29T02:50:48Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。