論文の概要: Critical Data Size of Language Models from a Grokking Perspective
- arxiv url: http://arxiv.org/abs/2401.10463v2
- Date: Tue, 6 Feb 2024 16:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:59:45.432708
- Title: Critical Data Size of Language Models from a Grokking Perspective
- Title(参考訳): グロッキングの視点からみた言語モデルの臨界データサイズ
- Authors: Xuekai Zhu, Yao Fu, Bowen Zhou, Zhouhan Lin
- Abstract要約: 我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
- 参考スコア(独自算出の注目度): 38.26674778407811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the critical data size in language models, a threshold that marks
a fundamental shift from quick memorization to slow generalization. We
formalize the phase transition under the grokking configuration into the Data
Efficiency Hypothesis and identify data insufficiency, sufficiency, and surplus
regimes in language models training dynamics. We develop a grokking
configuration to reproduce grokking on simplistic language models stably by
rescaling initialization and weight decay. We show that generalization occurs
only when language models reach a critical size. We analyze grokking across
sample-wise and model-wise, verifying the proposed data efficiency hypothesis.
Our experiments reveal smoother phase transitions occurring at the critical
dataset size for language datasets. As the model size increases, this critical
point also becomes larger, indicating that larger models require more data. Our
results deepen the understanding of language model training, offering a novel
perspective on the role of data in the learning mechanism of language models.
- Abstract(参考訳): 我々は、言語モデルにおける重要なデータサイズを探索する。これは、素早い記憶から遅い一般化への根本的なシフトを示すしきい値である。
グロッキング構成下での相転移をデータ効率仮説に定式化し,言語モデルの学習ダイナミクスにおけるデータ不足,不十分,余剰レジームを同定する。
我々は、初期化と重み劣化を再スケーリングすることで、単純化された言語モデル上でグラッキングを安定的に再現するためのグラッキング構成を開発する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
サンプル単位とモデル単位のグロッキングを解析し,提案するデータ効率仮説を検証した。
実験の結果,言語データセットのクリティカルデータセットサイズで発生するスムーズな相転移が明らかになった。
モデルのサイズが大きくなると、このクリティカルポイントも大きくなり、より大きなモデルにはより多くのデータが必要となる。
その結果,言語モデル学習の理解を深め,言語モデルの学習メカニズムにおけるデータの役割に関する新たな視点が得られた。
関連論文リスト
- ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases [5.5888763670915855]
本稿ではChatLawという,オープンソースの法的大規模言語モデルを提案する。
法的なデータスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を提案する。
また,参照データに存在する誤りを克服する大規模モデルの能力を高める自己認識手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T10:48:34Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。