論文の概要: Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data
- arxiv url: http://arxiv.org/abs/2202.02842v1
- Date: Sun, 6 Feb 2022 20:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:08:17.165865
- Title: Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data
- Title(参考訳): 訓練やテストデータへのアクセスを必要としない一般化メトリクスによる自然言語処理モデルの評価
- Authors: Yaoqing Yang, Ryan Theisen, Liam Hodgkinson, Joseph E. Gonzalez,
Kannan Ramchandran, Charles H. Martin, Michael W. Mahoney
- Abstract要約: 自然言語処理(NLP)モデルの性能について検討し,既存および新規な一般化指標の評価を行った。
従来の研究では,コンピュータビジョン(CV)ではなくNLPに着目し,(ii)一般化ギャップではなく,テストエラーを予測する一般化指標に着目し,(iii)データへのアクセスを必要としない一般化指標に着目し,(iv)ヘビーテール(HT)現象に注目した。
- 参考スコア(独自算出の注目度): 66.11139091362078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The search for effective and robust generalization metrics has been the focus
of recent theoretical and empirical work.
In this paper, we discuss the performance of natural language processing
(NLP) models, and we evaluate various existing and novel generalization
metrics.
Compared to prior studies, we
(i) focus on NLP instead of computer vision (CV),
(ii) focus on generalization metrics that predict test error instead of the
generalization gap,
(iii) focus on generalization metrics that do not need the access to data,
and
(iv) focus on the heavy-tail (HT) phenomenon that has received comparatively
less attention in the study of deep neural networks (NNs).
We extend recent HT-based work which focuses on power law (PL) distributions,
and we study exponential (EXP) and exponentially truncated power law (E-TPL)
fitting to the empirical spectral densities (ESDs) of weight matrices.
Our detailed empirical studies show that
(i) \emph{shape metrics}, or the metrics obtained from fitting the shape of
the ESDs, perform uniformly better at predicting generalization performance
than \emph{scale metrics} commonly studied in the literature, as measured by
the \emph{average} rank correlations with the generalization performance for
all of our experiments;
(ii) among forty generalization metrics studied in our paper, the
\RANDDISTANCE metric, a new shape metric invented in this paper that measures
the distance between empirical eigenvalues of weight matrices and those of
randomly initialized weight matrices, achieves the highest worst-case rank
correlation with generalization performance under a variety of training
settings; and
(iii) among the three HT distributions considered in our paper, the E-TPL
fitting of ESDs performs the most robustly.
- Abstract(参考訳): 有効で堅牢な一般化メトリクスの探索は、最近の理論および経験的研究の焦点となっている。
本稿では,自然言語処理(NLP)モデルの性能について考察し,既存および新規な一般化指標の評価を行う。
これまでの研究と比較すると
(i)コンピュータビジョン(CV)の代わりにNLPに焦点を当てる。
(ii)一般化ギャップではなく、テストエラーを予測する一般化メトリクスに注目すること。
(iii)データへのアクセスを必要としない一般化指標に着目し、
(4) ディープニューラルネットワーク(NN)の研究において比較的あまり注目されていないヘビーテール(HT)現象に注目した。
我々は,電力法則(PL)の分布に着目した最近のHTに基づく研究を拡張し,重量行列の実験的スペクトル密度(ESD)に適合する指数(EXP)および指数的に歪んだ電力法則(E-TPL)について検討した。
我々の詳細な実証研究は
(i) \emph{average}ランクとすべての実験の一般化性能との相関によって測定されるように、文献で一般的に研究されている \emph{scale metrics} よりも、esdの形状に適合して得られた指標は、一般化性能の予測に一様に優れている。
(二)本論文で検討した40の一般化指標のうち,重量行列の経験的固有値とランダムに初期化した重量行列との距離を測定する新しい形状計量であるranDDISTANCEは,様々な訓練条件下での一般化性能と最悪のランク相関を達成している。
3)本論文で検討した3つのHT分布のうち,ESDのE-TPLフィッティングが最も堅牢である。
関連論文リスト
- Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。
我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。
公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-10-18T17:56:24Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。