論文の概要: Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling
- arxiv url: http://arxiv.org/abs/2401.16380v1
- Date: Mon, 29 Jan 2024 18:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:41:48.853555
- Title: Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling
- Title(参考訳): Web: 計算とデータ効率のよい言語モデリングのためのレシピ
- Authors: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang,
Navdeep Jaitly
- Abstract要約: 本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
- 参考スコア(独自算出の注目度): 27.975832264345772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by $\sim3x$. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.
- Abstract(参考訳): 大規模な言語モデルは、しばしば構造化されず、騒々しく、言い回しが不十分なWebの大量のスクラップで訓練されている。
現在のスケーリング法則では、そのようなデータから学ぶには、トレーニング対象のモデルのサイズに応じて成長する計算とデータの両方を必要とする。
これは、事前トレーニングに伴う計算コストと持続時間が大きいことと、Web上の高品質なデータの差し迫った不足のため、実現不可能である。
本稿では,web上の文書を"like wikipedia" や "question-answer format" といったスタイルでパラフローするように促された,既定の命令調整モデルを用いて,実および合成レプリアーゼ上でllmを事前学習する web rephrase augmented pre-training (\textbf{wrap}$) を提案する。
まず、自然にノイズの多いC4データセットでWRAPを使用することで、事前トレーニングを$\sim3x$で高速化する。
同じ事前トレーニングされた計算予算で、パイルの異なるサブセットの平均で、パープレキシティを10%以上向上させ、13のタスクでゼロショットの質問応答精度を2%以上向上させる。
第二に、モデルの性能に対する言い換えスタイルの影響について検討し、トレーニングデータの構成がOOD設定におけるLCMの性能にどのように影響するかを洞察する。
我々の利益は、合成データが単に実際のデータよりも有用であるという事実による。
(i)下流評価様式を忠実に反映したスタイル多様性を取り入れ、
(ii)ウェブスクラッドデータよりも「品質」が高い。
関連論文リスト
- Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [63.67157940979682]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。