Fugu-MT 論文翻訳(概要): Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

論文の概要: Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

arxiv url: http://arxiv.org/abs/2401.16380v1
Date: Mon, 29 Jan 2024 18:19:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 13:41:48.853555
Title: Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
Title（参考訳）: Web: 計算とデータ効率のよい言語モデリングのためのレシピ
Authors: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
Abstract要約: 本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
参考スコア（独自算出の注目度）: 27.975832264345772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.
Abstract（参考訳）: 大規模な言語モデルは、しばしば構造化されず、騒々しく、言い回しが不十分なWebの大量のスクラップで訓練されている。現在のスケーリング法則では、そのようなデータから学ぶには、トレーニング対象のモデルのサイズに応じて成長する計算とデータの両方を必要とする。これは、事前トレーニングに伴う計算コストと持続時間が大きいことと、Web上の高品質なデータの差し迫った不足のため、実現不可能である。本稿では,web上の文書を"like wikipedia" や "question-answer format" といったスタイルでパラフローするように促された,既定の命令調整モデルを用いて,実および合成レプリアーゼ上でllmを事前学習する web rephrase augmented pre-training (\textbf{wrap}$) を提案する。まず、自然にノイズの多いC4データセットでWRAPを使用することで、事前トレーニングを$\sim3x$で高速化する。同じ事前トレーニングされた計算予算で、パイルの異なるサブセットの平均で、パープレキシティを10%以上向上させ、13のタスクでゼロショットの質問応答精度を2%以上向上させる。第二に、モデルの性能に対する言い換えスタイルの影響について検討し、トレーニングデータの構成がOOD設定におけるLCMの性能にどのように影響するかを洞察する。我々の利益は、合成データが単に実際のデータよりも有用であるという事実による。 (i)下流評価様式を忠実に反映したスタイル多様性を取り入れ、 (ii)ウェブスクラッドデータよりも「品質」が高い。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T07:12:12Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Metadata Conditioning Accelerates Language Model Pre-training [76.54265482251454]
そこで本研究では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。 MeCoは、さまざまなモデルスケール(600Mから8Bパラメータ)とトレーニングソース(C4、RefinedWeb、DCLM)の事前トレーニングを著しく加速する MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
論文参考訳（メタデータ） (2025-01-03T18:59:23Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は、応答における2つの重要なスタイル的要素、すなわち言語形式と意味的前提を同定する。これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。 SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文参考訳（メタデータ） (2024-06-16T10:10:37Z)
LMEraser: Large Model Unlearning through Adaptive Prompt Tuning [21.141664917477257]
LMEraserは、データインフルエンスを分離するために、迅速なチューニングアーキテクチャを備えた、分割とコンカマーの戦略を採用している。実験の結果,LMEraserは精度を損なうことなく,学習コストを100ドル程度削減できることがわかった。
論文参考訳（メタデータ） (2024-04-17T04:08:38Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (2023-09-08T19:34:05Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。 GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文参考訳（メタデータ） (2022-12-07T12:27:28Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文参考訳（メタデータ） (2021-09-07T15:51:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。