Fugu-MT 論文翻訳(概要): Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data

論文の概要: Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data

arxiv url: http://arxiv.org/abs/2202.02842v3
Date: Sun, 4 Jun 2023 21:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 05:40:13.122069
Title: Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data
Title（参考訳）: 訓練やテストデータへのアクセスを必要としない一般化メトリクスによる自然言語処理モデルの評価
Authors: Yaoqing Yang, Ryan Theisen, Liam Hodgkinson, Joseph E. Gonzalez, Kannan Ramchandran, Charles H. Martin, Michael W. Mahoney
Abstract要約: 本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
参考スコア（独自算出の注目度）: 66.11139091362078
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Selecting suitable architecture parameters and training hyperparameters is essential for enhancing machine learning (ML) model performance. Several recent empirical studies conduct large-scale correlational analysis on neural networks (NNs) to search for effective \emph{generalization metrics} that can guide this type of model selection. Effective metrics are typically expected to correlate strongly with test performance. In this paper, we expand on prior analyses by examining generalization-metric-based model selection with the following objectives: (i) focusing on natural language processing (NLP) tasks, as prior work primarily concentrates on computer vision (CV) tasks; (ii) considering metrics that directly predict \emph{test error} instead of the \emph{generalization gap}; (iii) exploring metrics that do not need access to data to compute. From these objectives, we are able to provide the first model selection results on large pretrained Transformers from Huggingface using generalization metrics. Our analyses consider (I) hundreds of Transformers trained in different settings, in which we systematically vary the amount of data, the model size and the optimization hyperparameters, (II) a total of 51 pretrained Transformers from eight families of Huggingface NLP models, including GPT2, BERT, etc., and (III) a total of 28 existing and novel generalization metrics. Despite their niche status, we find that metrics derived from the heavy-tail (HT) perspective are particularly useful in NLP tasks, exhibiting stronger correlations than other, more popular metrics. To further examine these metrics, we extend prior formulations relying on power law (PL) spectral distributions to exponential (EXP) and exponentially-truncated power law (E-TPL) families.
Abstract（参考訳）: 適切なアーキテクチャパラメータの選択とハイパーパラメータのトレーニングは、機械学習(ML)モデルのパフォーマンス向上に不可欠である。最近のいくつかの実証研究は、ニューラルネットワーク(nns)の大規模相関分析を行い、このタイプのモデル選択を導く効果的な \emph{generalization metrics} を探索する。効果的なメトリクスは一般的にテストのパフォーマンスと強く相関することが期待されます。本稿では, 一般化・メトリックベースモデル選択を目的とし, 先行分析について拡張する。 (i)自然言語処理(NLP)タスクに焦点を合わせ、先行作業は主にコンピュータビジョン(CV)タスクに集中する。 (ii) \emph{ Generalization gap} の代わりに \emph{test error} を直接予測する指標を考える。 (iii) 計算するデータへのアクセスを必要としないメトリクスを探索すること。これらの目的から,一般化指標を用いて,ハギングフェイスによる大規模事前学習トランスフォーマーの最初のモデル選択結果を提供できる。分析では,(I)データ量,モデルサイズ,最適化ハイパーパラメータを体系的に変化させ,(II)GPT2,BERTなどを含む8種類のHugingface NLPモデルから,51種類の事前学習トランスフォーマーを,(III)既存の28種類の一般化指標と新規な一般化指標を比較検討した。ニッチな状況にもかかわらず、ヘビーテール(ht)の観点から得られるメトリクスは特にnlpタスクで有用であり、他の人気のあるメトリクスよりも強い相関を示す。これらの指標をさらに検討するため、電力法(PL)スペクトル分布に依存する事前定式化を指数関数法(EXP)および指数関数的に歪んだ電力法(E-TPL)系に拡張する。

関連論文リスト

Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文参考訳（メタデータ） (2025-07-12T08:10:10Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文参考訳（メタデータ） (2024-10-04T02:07:17Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach [0.18641315013048293]
本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。提案手法は,任意の長さの未知の負荷時間列に迅速に適応し,一般化することができる。提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。
論文参考訳（メタデータ） (2024-06-09T18:59:08Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文参考訳（メタデータ） (2022-10-24T15:14:26Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Post-mortem on a deep learning contest: a Simpson's paradox and the complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文参考訳（メタデータ） (2021-06-01T19:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。