論文の概要: Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models
- arxiv url: http://arxiv.org/abs/2210.14199v1
- Date: Tue, 25 Oct 2022 17:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-26 15:34:25.439330
- Title: Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models
- Title(参考訳): 同じ事前トレーニング損失と下流の改善 - 言語モデルに対する暗黙のバイアス問題
- Authors: Hong Liu, Sang Michael Xie, Zhiyuan Li, Tengyu Ma
- Abstract要約: 本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
- 参考スコア(独自算出の注目度): 46.24479693469042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language modeling on large-scale datasets leads to impressive performance
gains on various downstream language tasks. The validation pre-training loss
(or perplexity in autoregressive language modeling) is often used as the
evaluation metric when developing language models since the pre-training loss
tends to be well-correlated with downstream performance (which is itself
difficult to evaluate comprehensively). Contrary to this conventional wisdom,
this paper shows that 1) pre-training loss cannot fully explain downstream
performance and 2) flatness of the model is well-correlated with downstream
performance where pre-training loss is not. On simplified datasets, we identify
three ways to produce models with the same (statistically optimal) pre-training
loss but different downstream performance: continue pre-training after
convergence, increasing the model size, and changing the training algorithm.
These experiments demonstrate the existence of implicit bias of pre-training
algorithms/optimizers -- among models with the same minimal pre-training loss,
they implicitly prefer more transferable ones. Toward understanding this
implicit bias, we prove that SGD with standard mini-batch noise implicitly
prefers flatter minima in language models, and empirically observe a strong
correlation between flatness and downstream performance among models with the
same minimal pre-training loss. We also prove in a synthetic language setting
that among the models with the minimal pre-training loss, the flattest model
transfers to downstream tasks.
- Abstract(参考訳): 大規模なデータセットでの言語モデリングは、さまざまな下流の言語タスクのパフォーマンス向上に繋がる。
検証事前学習損失(または自己回帰言語モデリングにおけるパープレキシティ)は、事前学習損失が下流のパフォーマンスとよく相関する傾向があるため、言語モデルを開発する際の評価指標としてしばしば用いられる。
この従来の知恵とは対照的に、本論文は
1)事前学習損失は下流のパフォーマンスを完全に説明できない。
2) モデルの平坦度は,事前学習損失がない下流性能とよく相関している。
単純化されたデータセットについて、同じ(統計的に最適)事前学習損失と下流性能の異なるモデルを生成する3つの方法を特定した:収束後の事前トレーニングの継続、モデルサイズの拡大、トレーニングアルゴリズムの変更。
これらの実験は、トレーニング前のアルゴリズム/最適化者の暗黙のバイアスの存在を実証している。
この暗黙のバイアスを理解するために,標準ミニバッチ雑音を持つsgdは言語モデルにおいて暗黙的により平坦なミニマを好むことを証明し,同じ最小事前学習損失を持つモデル間での平坦性と下流性能の強い相関を実証的に観察する。
また,事前学習の損失を最小限に抑えるモデルの中で,最もフラットなモデルが下流タスクに移行できることを,合成言語環境で証明した。
関連論文リスト
- Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。
BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。
他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文 参考訳(メタデータ) (2020-10-19T14:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。