論文の概要: Text Quality-Based Pruning for Efficient Training of Language Models
- arxiv url: http://arxiv.org/abs/2405.01582v3
- Date: Fri, 10 May 2024 23:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 21:03:09.588363
- Title: Text Quality-Based Pruning for Efficient Training of Language Models
- Title(参考訳): 言語モデルの効率的な学習のためのテキスト品質ベースプルーニング
- Authors: Vasu Sharma, Karthik Padthe, Newsha Ardalani, Kushal Tirumala, Russell Howes, Hu Xu, Po-Yao Huang, Shang-Wen Li, Armen Aghajanyan, Gargi Ghosh, Luke Zettlemoyer,
- Abstract要約: 本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
- 参考スコア(独自算出の注目度): 66.66259229732121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times training Language Models (LMs) have relied on computationally heavy training over massive datasets which makes this training process extremely laborious. In this paper we propose a novel method for numerically evaluating text quality in large unlabelled NLP datasets in a model agnostic manner to assign the text instances a "quality score". By proposing the text quality metric, the paper establishes a framework to identify and eliminate low-quality text instances, leading to improved training efficiency for LM models. Experimental results over multiple models and datasets demonstrate the efficacy of this approach, showcasing substantial gains in training effectiveness and highlighting the potential for resource-efficient LM training. For example, we observe an absolute accuracy improvement of 0.9% averaged over 14 downstream evaluation tasks for multiple LM models while using 40% lesser data and training 42% faster when training on the OpenWebText dataset and 0.8% average absolute accuracy improvement while using 20% lesser data and training 21% faster on the Wikipedia dataset.
- Abstract(参考訳): 近年、言語モデル(LM)のトレーニングは、膨大なデータセットを計算的に重いトレーニングに頼っているため、このトレーニングプロセスは非常に困難である。
本稿では,大容量NLPデータセットのテキスト品質をモデルに依存しない方法で数値評価し,テキストインスタンスを「品質スコア」に割り当てる手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立し、LMモデルのトレーニング効率を向上する。
複数のモデルやデータセットに対する実験結果は、このアプローチの有効性を示し、トレーニングの有効性を大幅に向上させ、資源効率の高いLMトレーニングの可能性を強調している。
例えば、複数のLMモデルのダウンストリーム評価タスク14件に対して平均0.9%の絶対精度の改善を、OpenWebTextデータセットでのトレーニングでは40%少なく、トレーニングは42%速く、平均絶対精度の改善は0.8%向上し、ウィキペディアデータセットでは20%少なく、トレーニングは21%速くなった。
関連論文リスト
- DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models [78.51470038301436]
本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
論文 参考訳(メタデータ) (2024-10-08T02:42:56Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation [0.0]
本稿では,超音波イメージング機械学習パイプラインのデータクリーニングに必要なセグメンテーションを作成する方法を紹介する。
本研究では、自動生成したトレーニングデータと人間の視覚的チェックを高速に活用し、時間とコストを低く保ちながら、モデルの精度を向上させる4段階の手法を提案する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
論文 参考訳(メタデータ) (2023-04-03T13:56:01Z) - Towards Zero-Label Language Learning [20.28186484098947]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。
トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。
GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文 参考訳(メタデータ) (2021-09-19T19:00:07Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T03:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。