論文の概要: Irreducible Curriculum for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2310.15389v1
- Date: Mon, 23 Oct 2023 22:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:20:33.576337
- Title: Irreducible Curriculum for Language Model Pretraining
- Title(参考訳): 言語モデル事前学習のための既約カリキュラム
- Authors: Simin Fan, Martin Jaggi
- Abstract要約: 本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。
RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
- 参考スコア(独自算出の注目度): 46.895234111411426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic data selection and curriculum design for training large language
models is challenging, with only a few existing methods showing improvements
over standard training. Furthermore, current schemes focus on domain-level
selection, overlooking the more fine-grained contributions of each individual
training point. It is difficult to apply traditional datapoint selection
methods on large language models: most online batch selection methods perform
two-times forward or backward passes, which introduces considerable extra costs
with large-scale models. To mitigate these obstacles, we propose irreducible
curriculum as a curriculum learning algorithm for language model pretraining,
which prioritizes samples with higher learnability. Specifically, to avoid
prohibitive extra computation overhead, we simulate the sample loss along the
main model's training trajectory using a small-scale proxy model. Our
experiments on the RedPajama-1B dataset demonstrate a consistent improvement on
validation perplexity across all 7 domains compared to random uniform baseline
and the anti-curriculum strategy. Our method also reduces the sharpness of the
network and illustrates a better 5-shot accuracy on MMLU benchmarks.
- Abstract(参考訳): 大規模言語モデルのトレーニングのためのデータの自動選択とカリキュラム設計は難しい。
さらに、現在のスキームはドメインレベルの選択にフォーカスし、個々のトレーニングポイントのよりきめ細かい貢献を見渡しています。
従来のデータポイント選択手法を大規模言語モデルに適用するのは困難である: ほとんどのオンラインバッチ選択メソッドは2回前方または後方パスを実行する。
これらの障害を軽減するために,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,学習性の高いサンプルを優先する既約カリキュラムを提案する。
具体的には,厳密な計算オーバーヘッドを避けるために,小型のプロキシモデルを用いて,メインモデルのトレーニング軌道に沿ったサンプル損失をシミュレートする。
RedPajama-1Bデータセットに対する実験は、ランダムな均一なベースラインと反カリキュラム戦略と比較して、全7ドメインにわたる検証難易度が一貫した改善を示した。
本手法はネットワークのシャープさを低減し,mmluベンチマークにおける5ショット精度の向上を示す。
関連論文リスト
- Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Unsupervised Calibration through Prior Adaptation for Text
Classification using Large Language Models [37.39843935632105]
ラベル付きサンプルを必要とせずにテキスト分類タスクを実行するために,先行クラス分布に適応する手法を提案する。
その結果,これらの手法は,プロンプト内の訓練ショット数が異なる場合,適応しないモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-13T12:11:36Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。