論文の概要: INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models
- arxiv url: http://arxiv.org/abs/2305.06677v2
- Date: Thu, 19 Oct 2023 19:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 09:04:43.634687
- Title: INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models
- Title(参考訳): Ingenious: 言語モデルの効率的な事前学習のためのインフォーマティブデータセットの利用
- Authors: H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit
Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji
Krishnamurthy
- Abstract要約: トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
- 参考スコア(独自算出の注目度): 40.54353850357839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A salient characteristic of pre-trained language models (PTLMs) is a
remarkable improvement in their generalization capability and emergence of new
capabilities with increasing model capacity and pre-training dataset size.
Consequently, we are witnessing the development of enormous models pushing the
state-of-the-art. It is, however, imperative to realize that this inevitably
leads to prohibitively long training times, extortionate computing costs, and a
detrimental environmental impact. Significant efforts are underway to make PTLM
training more efficient through innovations in model architectures, training
pipelines, and loss function design, with scant attention being paid to
optimizing the utility of training data. The key question that we ask is
whether it is possible to train PTLMs by employing only highly informative
subsets of the training data while maintaining downstream performance? Building
upon the recent progress in informative data subset selection, we show how we
can employ submodular optimization to select highly representative subsets of
the training corpora and demonstrate that the proposed framework can be applied
to efficiently train multiple PTLMs (BERT, BioBERT, GPT-2) using only a
fraction of data. Further, we perform a rigorous empirical evaluation to show
that the resulting models achieve up to $\sim99\%$ of the performance of the
fully-trained models. We made our framework publicly available at
https://github.com/Efficient-AI/ingenious.
- Abstract(参考訳): 事前学習言語モデル(PTLM)の顕著な特徴は、その一般化能力と、モデルキャパシティと事前学習データセットサイズの増加による新機能の出現において顕著な改善である。
その結果、私たちは最先端を推し進める巨大なモデルの開発を目撃しています。
しかし、このことが必然的に長時間のトレーニング時間、強要の計算コスト、有害な環境影響をもたらすことを認識することが不可欠である。
PTLMトレーニングをモデルアーキテクチャ、トレーニングパイプライン、損失関数設計の革新を通じて効率化するための重要な取り組みが進行中であり、トレーニングデータの有用性の最適化に注意が払われている。
重要な疑問は、下流のパフォーマンスを維持しながら、トレーニングデータの高情報サブセットのみを利用することでPTLMをトレーニングできるかどうかである。
情報的データサブセット選択の最近の進歩を踏まえ、トレーニングコーパスの高度に代表的なサブセットを選択するためにサブモジュール最適化をいかに活用できるかを示し、提案手法を適用して複数のPTLM(BERT, BioBERT, GPT-2)を少数のデータで効率的に訓練することができることを示す。
さらに,得られたモデルが完全学習モデルの性能の最大$\sim99\%を達成できることを示すため,厳密な実験的な評価を行う。
私たちはフレームワークをhttps://github.com/Efficient-AI/ingenious.comで公開しました。
関連論文リスト
- Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Rethinking Overlooked Aspects in Vision-Language Models [32.525916879333145]
近年の視覚言語モデル(LVLM)の進歩は顕著である。
最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。
本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
論文 参考訳(メタデータ) (2024-05-20T07:53:41Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。