論文の概要: RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
- arxiv url: http://arxiv.org/abs/2510.10681v1
- Date: Sun, 12 Oct 2025 16:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.063091
- Title: RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
- Title(参考訳): RePro: トレーニングのためのWebを忠実にリサイクルする言語モデルをトレーニングする
- Authors: Zichun Yu, Chenyan Xiong,
- Abstract要約: 高品質プレトレーニングデータは、大型言語モデル(LLM)の化石燃料である
ReProは、比較的小さなLMを強化学習で訓練し、事前学習データの効果的な表現を生成する新しいウェブリサイクル手法である。
- 参考スコア(独自算出の注目度): 28.30636190022749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality pretraining data is the fossil fuel of large language models (LLMs), yet its reserves are running low for frontier models. In this paper, we introduce RePro, a novel web recycling method that trains a relatively small LM with reinforcement learning to generate effective and faithful rephrasings of pretraining data. Specifically, we design one quality reward and three faithfulness rewards, optimizing the LM rephraser to convert organic data into high-quality rephrasings while maintaining its core semantics and structure. In our experiment, we train a 4B rephraser to recycle 72B tokens sampled from DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on 22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web recycling method that prompts a 70B rephraser, as well as the organic baseline with a 4x larger data pool. Experiments with different amounts of recycled data highlight that RePro improves organic data efficiency by 2-3x. Individual and distributional analyses validate that RePro preserves more critical information and faithfully reflects the characteristics of organic data compared to prompting-based methods. Together, these results show that RePro provides an efficient and controllable path to effectively harness the fossil fuel of LLM pretraining. We open-source our code, rephraser, and recycled data at https://github.com/cxcscmu/RePro.
- Abstract(参考訳): 高品質の事前訓練データは、大型言語モデル(LLM)の化石燃料であるが、その予備費はフロンティアモデルでは低い。
本稿では,比較的小さなLMを強化学習で訓練し,事前学習データの有効かつ忠実な表現を生成するウェブリサイクル手法であるReProを紹介する。
具体的には、1つの品質報酬と3つの忠実報酬を設計し、LMリフレサを最適化し、その中核となる意味と構造を維持しながら、有機データを高品質なリフレッシングに変換する。
実験では,DCLM-RefinedWebから採取した72Bトークンをリサイクルするために,4Bリフレサを訓練した。
400Mモデルと1.4Bモデルでの事前トレーニングの結果、ReProは22の下流タスクにおいて、オーガニックのみのベースラインよりも4.7%-14.0%の精度を達成している。
ReProはまた、70Bリフレッサーを誘導する最先端のウェブリサイクル手法であるReWireと、4倍大きなデータプールを持つ有機ベースラインを上回っている。
さまざまな量のリサイクルデータによる実験では、ReProは有機データ効率を2~3倍改善している。
個人および分布分析は、ReProがより重要な情報を保存し、プロンプトベースの手法と比較して、有機データの特徴を忠実に反映していることを検証する。
これらの結果から,ReProはLLM予備訓練の化石燃料を効果的に活用するための効率的かつ制御可能な経路を提供することが示された。
私たちは、https://github.com/cxcscmu/RePro.comで、私たちのコード、リフリーザー、リサイクルデータをオープンソース化しました。
関連論文リスト
- Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs [10.408027323179903]
トレーニング再評価曲線 (TREC)* を導入する。
TRECの低点に高品質なデータを置くと性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2025-09-29T18:31:35Z) - ReTrack: Data Unlearning in Diffusion Models through Redirecting the Denoising Trajectory [17.016094185289372]
拡散モデルのための高速かつ効果的なデータアンラーニング手法であるReTrackを提案する。
ReTrackはより効率的な微調整損失を構築するために重要サンプリングを採用している。
MNIST T-Shirt、CelebA-HQ、CIFAR-10、および安定拡散の実験は、ReTrackが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-09-16T12:20:15Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。