論文の概要: Characterizing Learning Curves During Language Model Pre-Training:
Learning, Forgetting, and Stability
- arxiv url: http://arxiv.org/abs/2308.15419v1
- Date: Tue, 29 Aug 2023 16:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 13:12:10.767146
- Title: Characterizing Learning Curves During Language Model Pre-Training:
Learning, Forgetting, and Stability
- Title(参考訳): 言語モデル事前学習中の学習曲線の特徴付け:学習、忘れ、安定性
- Authors: Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen
- Abstract要約: より長く一貫性のあるテキストを生成するために学習する前に,言語モデルが短い反復句を生成するのを観察する。
我々は、個々のトークンに対する学習曲線の最終的な前提、内部変動、取得年齢、忘れやすさ、およびクロスラン変動を、文脈において定量化する。
我々の研究は、言語モデルの事前学習のダイナミクスをより深く理解し、安定な言語モデルの実践的な展開を知らせます。
- 参考スコア(独自算出の注目度): 28.68721131100346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do language models learn to make predictions during pre-training? To
study this question, we extract learning curves from five autoregressive
English language model pre-training runs, for 1M tokens in context. We observe
that the language models generate short repetitive phrases before learning to
generate longer and more coherent text. We quantify the final surprisal,
within-run variability, age of acquisition, forgettability, and cross-run
variability of learning curves for individual tokens in context. More frequent
tokens reach lower final surprisals, exhibit less variability within and across
pre-training runs, are learned earlier, and are less likely to be "forgotten"
during pre-training. Higher n-gram probabilities further accentuate these
effects. Independent of the target token, shorter and more frequent contexts
correlate with marginally more stable and quickly acquired predictions. Effects
of part-of-speech are also small, although nouns tend to be acquired later and
less stably than verbs, adverbs, and adjectives. Our work contributes to a
better understanding of language model pre-training dynamics and informs the
deployment of stable language models in practice.
- Abstract(参考訳): 事前学習中に言語モデルはどのように予測をするか?
本研究では,5つの自己回帰型英語モデルから学習曲線を抽出し,文脈における1Mトークンについて検討する。
より長く一貫性のあるテキストを生成するために学習する前に,言語モデルが短い反復句を生成するのを観察する。
コンテキスト内の個々のトークンに対する学習曲線の最終的な超越性、内部変動性、獲得年齢、忘れやすさ、クロスラン変動性を定量化する。
より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。
高いn-gram確率はこれらの効果をさらに強調する。
ターゲットトークンとは独立して、より短く頻繁なコンテキストは、より安定で素早く取得された予測と相関する。
部分音声の効果も小さいが、名詞は動詞、副詞、形容詞よりも遅く、安定しない傾向にある。
我々の研究は、言語モデルの事前学習のダイナミクスをより深く理解し、安定な言語モデルの実践的な展開を知らせます。
関連論文リスト
- Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times [15.738530737312335]
近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
論文 参考訳(メタデータ) (2024-02-03T20:22:54Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect
Sentiment Quad Prediction [52.05304897163256]
トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。
具体的には、事前訓練された言語モデルのビルトイン不確実性を理解するために、モンテカルロのドロップアウトを導入する。
さらに,不確実性を認識した誤りトークンを抑制するために,差分学習を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:49:06Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文 参考訳(メタデータ) (2020-10-06T05:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。