論文の概要: Predicting trends in the quality of state-of-the-art neural networks
without access to training or testing data
- arxiv url: http://arxiv.org/abs/2002.06716v2
- Date: Wed, 2 Jun 2021 17:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:27:36.585343
- Title: Predicting trends in the quality of state-of-the-art neural networks
without access to training or testing data
- Title(参考訳): トレーニングやテストデータへのアクセスのない最先端ニューラルネットワークの品質の予測
- Authors: Charles H. Martin, Tongsu (Serena) Peng, and Michael W. Mahoney
- Abstract要約: 公開されている何百もの事前学習モデルの詳細なメタ分析を提供する。
パワーローベースのメトリクスは -- 訓練された一連のモデル間での識別が、定量的に優れていることが分かりました。
- 参考スコア(独自算出の注目度): 46.63168507757103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many applications, one works with neural network models trained by someone
else. For such pretrained models, one may not have access to training data or
test data. Moreover, one may not know details about the model, e.g., the
specifics of the training data, the loss function, the hyperparameter values,
etc. Given one or many pretrained models, it is a challenge to say anything
about the expected performance or quality of the models. Here, we address this
challenge by providing a detailed meta-analysis of hundreds of
publicly-available pretrained models. We examine norm based capacity control
metrics as well as power law based metrics from the recently-developed Theory
of Heavy-Tailed Self Regularization. We find that norm based metrics correlate
well with reported test accuracies for well-trained models, but that they often
cannot distinguish well-trained versus poorly-trained models. We also find that
power law based metrics can do much better -- quantitatively better at
discriminating among series of well-trained models with a given architecture;
and qualitatively better at discriminating well-trained versus poorly-trained
models. These methods can be used to identify when a pretrained neural network
has problems that cannot be detected simply by examining training/test
accuracies.
- Abstract(参考訳): 多くのアプリケーションでは、他の人がトレーニングしたニューラルネットワークモデルで動作します。
このような事前訓練されたモデルでは、トレーニングデータやテストデータにアクセスできない場合がある。
さらに、トレーニングデータの詳細、損失関数、ハイパーパラメータ値など、モデルの詳細を知らない場合もある。
1つまたは複数の事前訓練されたモデルを考えると、モデルの性能や品質について何かを言うのは難しい。
ここでは、何百という事前学習済みモデルの詳細なメタ分析を提供することで、この課題に対処します。
本研究では,最近開発された重み付き自己正則化理論から,規範に基づくキャパシティ制御指標と電力法に基づく指標について検討する。
基準に基づくメトリクスは、よく訓練されたモデルに対して報告されたテスト精度とよく相関するが、よく訓練されたモデルと不十分なモデルとを区別できないことが多い。
また、パワーローベースのメトリクスは、所定のアーキテクチャで訓練された一連のモデル間の識別を定量的に改善し、訓練されたモデルと訓練不足モデルとの識別を質的に改善する。
これらの方法は、トレーニング/テストの精度を調べるだけでは検出できない、事前訓練されたニューラルネットワークに問題があるかどうかを特定するために使用できる。
関連論文リスト
- Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文 参考訳(メタデータ) (2023-07-02T23:27:00Z) - Quantifying Overfitting: Evaluating Neural Network Performance through
Analysis of Null Space [10.698553177585973]
ニューラルネットワークの最後の層におけるヌル空間を分析し、トレーニングデータへのアクセスやそれらのデータの正確性に関する知識を必要とせずに、オーバーフィッティングを定量化する。
私たちの研究は、トレーニングデータへのアクセスやトレーニングサンプルに関する知識を必要とせずに、オーバーフィッティングを定量化する最初の試みです。
論文 参考訳(メタデータ) (2023-05-30T21:31:24Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。