Fugu-MT 論文翻訳(概要): Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data

論文の概要: Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data

arxiv url: http://arxiv.org/abs/2202.02842v1
Date: Sun, 6 Feb 2022 20:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-08 14:08:17.165865
Title: Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data
Title（参考訳）: 訓練やテストデータへのアクセスを必要としない一般化メトリクスによる自然言語処理モデルの評価
Authors: Yaoqing Yang, Ryan Theisen, Liam Hodgkinson, Joseph E. Gonzalez, Kannan Ramchandran, Charles H. Martin, Michael W. Mahoney
Abstract要約: 自然言語処理(NLP)モデルの性能について検討し,既存および新規な一般化指標の評価を行った。従来の研究では,コンピュータビジョン(CV)ではなくNLPに着目し,(ii)一般化ギャップではなく,テストエラーを予測する一般化指標に着目し,(iii)データへのアクセスを必要としない一般化指標に着目し,(iv)ヘビーテール(HT)現象に注目した。
参考スコア（独自算出の注目度）: 66.11139091362078
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The search for effective and robust generalization metrics has been the focus of recent theoretical and empirical work. In this paper, we discuss the performance of natural language processing (NLP) models, and we evaluate various existing and novel generalization metrics. Compared to prior studies, we (i) focus on NLP instead of computer vision (CV), (ii) focus on generalization metrics that predict test error instead of the generalization gap, (iii) focus on generalization metrics that do not need the access to data, and (iv) focus on the heavy-tail (HT) phenomenon that has received comparatively less attention in the study of deep neural networks (NNs). We extend recent HT-based work which focuses on power law (PL) distributions, and we study exponential (EXP) and exponentially truncated power law (E-TPL) fitting to the empirical spectral densities (ESDs) of weight matrices. Our detailed empirical studies show that (i) \emph{shape metrics}, or the metrics obtained from fitting the shape of the ESDs, perform uniformly better at predicting generalization performance than \emph{scale metrics} commonly studied in the literature, as measured by the \emph{average} rank correlations with the generalization performance for all of our experiments; (ii) among forty generalization metrics studied in our paper, the \RANDDISTANCE metric, a new shape metric invented in this paper that measures the distance between empirical eigenvalues of weight matrices and those of randomly initialized weight matrices, achieves the highest worst-case rank correlation with generalization performance under a variety of training settings; and (iii) among the three HT distributions considered in our paper, the E-TPL fitting of ESDs performs the most robustly.
Abstract（参考訳）: 有効で堅牢な一般化メトリクスの探索は、最近の理論および経験的研究の焦点となっている。本稿では,自然言語処理(NLP)モデルの性能について考察し,既存および新規な一般化指標の評価を行う。これまでの研究と比較すると (i)コンピュータビジョン(CV)の代わりにNLPに焦点を当てる。 (ii)一般化ギャップではなく、テストエラーを予測する一般化メトリクスに注目すること。 (iii)データへのアクセスを必要としない一般化指標に着目し、 (4) ディープニューラルネットワーク(NN)の研究において比較的あまり注目されていないヘビーテール(HT)現象に注目した。我々は,電力法則(PL)の分布に着目した最近のHTに基づく研究を拡張し,重量行列の実験的スペクトル密度(ESD)に適合する指数(EXP)および指数的に歪んだ電力法則(E-TPL)について検討した。我々の詳細な実証研究は (i) \emph{average}ランクとすべての実験の一般化性能との相関によって測定されるように、文献で一般的に研究されている \emph{scale metrics} よりも、esdの形状に適合して得られた指標は、一般化性能の予測に一様に優れている。 (二)本論文で検討した40の一般化指標のうち,重量行列の経験的固有値とランダムに初期化した重量行列との距離を測定する新しい形状計量であるranDDISTANCEは,様々な訓練条件下での一般化性能と最悪のランク相関を達成している。 3)本論文で検討した3つのHT分布のうち,ESDのE-TPLフィッティングが最も堅牢である。

関連論文リスト

Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文参考訳（メタデータ） (2025-07-12T08:10:10Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文参考訳（メタデータ） (2024-10-04T02:07:17Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach [0.18641315013048293]
本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。提案手法は,任意の長さの未知の負荷時間列に迅速に適応し,一般化することができる。提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。
論文参考訳（メタデータ） (2024-06-09T18:59:08Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文参考訳（メタデータ） (2022-10-24T15:14:26Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Post-mortem on a deep learning contest: a Simpson's paradox and the complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文参考訳（メタデータ） (2021-06-01T19:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。