論文の概要: INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models
- arxiv url: http://arxiv.org/abs/2305.06677v2
- Date: Thu, 19 Oct 2023 19:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 09:04:43.634687
- Title: INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models
- Title(参考訳): Ingenious: 言語モデルの効率的な事前学習のためのインフォーマティブデータセットの利用
- Authors: H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit
Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji
Krishnamurthy
- Abstract要約: トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
- 参考スコア(独自算出の注目度): 40.54353850357839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A salient characteristic of pre-trained language models (PTLMs) is a
remarkable improvement in their generalization capability and emergence of new
capabilities with increasing model capacity and pre-training dataset size.
Consequently, we are witnessing the development of enormous models pushing the
state-of-the-art. It is, however, imperative to realize that this inevitably
leads to prohibitively long training times, extortionate computing costs, and a
detrimental environmental impact. Significant efforts are underway to make PTLM
training more efficient through innovations in model architectures, training
pipelines, and loss function design, with scant attention being paid to
optimizing the utility of training data. The key question that we ask is
whether it is possible to train PTLMs by employing only highly informative
subsets of the training data while maintaining downstream performance? Building
upon the recent progress in informative data subset selection, we show how we
can employ submodular optimization to select highly representative subsets of
the training corpora and demonstrate that the proposed framework can be applied
to efficiently train multiple PTLMs (BERT, BioBERT, GPT-2) using only a
fraction of data. Further, we perform a rigorous empirical evaluation to show
that the resulting models achieve up to $\sim99\%$ of the performance of the
fully-trained models. We made our framework publicly available at
https://github.com/Efficient-AI/ingenious.
- Abstract(参考訳): 事前学習言語モデル(PTLM)の顕著な特徴は、その一般化能力と、モデルキャパシティと事前学習データセットサイズの増加による新機能の出現において顕著な改善である。
その結果、私たちは最先端を推し進める巨大なモデルの開発を目撃しています。
しかし、このことが必然的に長時間のトレーニング時間、強要の計算コスト、有害な環境影響をもたらすことを認識することが不可欠である。
PTLMトレーニングをモデルアーキテクチャ、トレーニングパイプライン、損失関数設計の革新を通じて効率化するための重要な取り組みが進行中であり、トレーニングデータの有用性の最適化に注意が払われている。
重要な疑問は、下流のパフォーマンスを維持しながら、トレーニングデータの高情報サブセットのみを利用することでPTLMをトレーニングできるかどうかである。
情報的データサブセット選択の最近の進歩を踏まえ、トレーニングコーパスの高度に代表的なサブセットを選択するためにサブモジュール最適化をいかに活用できるかを示し、提案手法を適用して複数のPTLM(BERT, BioBERT, GPT-2)を少数のデータで効率的に訓練することができることを示す。
さらに,得られたモデルが完全学習モデルの性能の最大$\sim99\%を達成できることを示すため,厳密な実験的な評価を行う。
私たちはフレームワークをhttps://github.com/Efficient-AI/ingenious.comで公開しました。
関連論文リスト
- Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [54.8906415124942]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Lifelong Language Pretraining with Distribution-Specialized Experts [39.86463645187337]
Lifelong Learningの目的は、情報システムが時間にわたって連続したデータストリームから学習できるようにすることだ。
モデルキャパシティを動的に追加するMoEアーキテクチャであるLifelong-MoEを提案する。
既存の生涯学習アプローチと比較して、Lifelong-MoEは、19の下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-20T21:15:19Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。