論文の概要: Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data
- arxiv url: http://arxiv.org/abs/2202.02842v1
- Date: Sun, 6 Feb 2022 20:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:08:17.165865
- Title: Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data
- Title(参考訳): 訓練やテストデータへのアクセスを必要としない一般化メトリクスによる自然言語処理モデルの評価
- Authors: Yaoqing Yang, Ryan Theisen, Liam Hodgkinson, Joseph E. Gonzalez,
Kannan Ramchandran, Charles H. Martin, Michael W. Mahoney
- Abstract要約: 自然言語処理(NLP)モデルの性能について検討し,既存および新規な一般化指標の評価を行った。
従来の研究では,コンピュータビジョン(CV)ではなくNLPに着目し,(ii)一般化ギャップではなく,テストエラーを予測する一般化指標に着目し,(iii)データへのアクセスを必要としない一般化指標に着目し,(iv)ヘビーテール(HT)現象に注目した。
- 参考スコア(独自算出の注目度): 66.11139091362078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The search for effective and robust generalization metrics has been the focus
of recent theoretical and empirical work.
In this paper, we discuss the performance of natural language processing
(NLP) models, and we evaluate various existing and novel generalization
metrics.
Compared to prior studies, we
(i) focus on NLP instead of computer vision (CV),
(ii) focus on generalization metrics that predict test error instead of the
generalization gap,
(iii) focus on generalization metrics that do not need the access to data,
and
(iv) focus on the heavy-tail (HT) phenomenon that has received comparatively
less attention in the study of deep neural networks (NNs).
We extend recent HT-based work which focuses on power law (PL) distributions,
and we study exponential (EXP) and exponentially truncated power law (E-TPL)
fitting to the empirical spectral densities (ESDs) of weight matrices.
Our detailed empirical studies show that
(i) \emph{shape metrics}, or the metrics obtained from fitting the shape of
the ESDs, perform uniformly better at predicting generalization performance
than \emph{scale metrics} commonly studied in the literature, as measured by
the \emph{average} rank correlations with the generalization performance for
all of our experiments;
(ii) among forty generalization metrics studied in our paper, the
\RANDDISTANCE metric, a new shape metric invented in this paper that measures
the distance between empirical eigenvalues of weight matrices and those of
randomly initialized weight matrices, achieves the highest worst-case rank
correlation with generalization performance under a variety of training
settings; and
(iii) among the three HT distributions considered in our paper, the E-TPL
fitting of ESDs performs the most robustly.
- Abstract(参考訳): 有効で堅牢な一般化メトリクスの探索は、最近の理論および経験的研究の焦点となっている。
本稿では,自然言語処理(NLP)モデルの性能について考察し,既存および新規な一般化指標の評価を行う。
これまでの研究と比較すると
(i)コンピュータビジョン(CV)の代わりにNLPに焦点を当てる。
(ii)一般化ギャップではなく、テストエラーを予測する一般化メトリクスに注目すること。
(iii)データへのアクセスを必要としない一般化指標に着目し、
(4) ディープニューラルネットワーク(NN)の研究において比較的あまり注目されていないヘビーテール(HT)現象に注目した。
我々は,電力法則(PL)の分布に着目した最近のHTに基づく研究を拡張し,重量行列の実験的スペクトル密度(ESD)に適合する指数(EXP)および指数的に歪んだ電力法則(E-TPL)について検討した。
我々の詳細な実証研究は
(i) \emph{average}ランクとすべての実験の一般化性能との相関によって測定されるように、文献で一般的に研究されている \emph{scale metrics} よりも、esdの形状に適合して得られた指標は、一般化性能の予測に一様に優れている。
(二)本論文で検討した40の一般化指標のうち,重量行列の経験的固有値とランダムに初期化した重量行列との距離を測定する新しい形状計量であるranDDISTANCEは,様々な訓練条件下での一般化性能と最悪のランク相関を達成している。
3)本論文で検討した3つのHT分布のうち,ESDのE-TPLフィッティングが最も堅牢である。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach [0.18641315013048293]
本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。
提案手法は,任意の長さの未知の負荷時間列に迅速に適応し,一般化することができる。
提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-09T18:59:08Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。