論文の概要: Improving Pretraining Data Using Perplexity Correlations
- arxiv url: http://arxiv.org/abs/2409.05816v2
- Date: Mon, 10 Mar 2025 17:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:14.085339
- Title: Improving Pretraining Data Using Perplexity Correlations
- Title(参考訳): パープレキシティ相関を用いた事前学習データの改善
- Authors: Tristan Thrush, Christopher Potts, Tatsunori Hashimoto,
- Abstract要約: 我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
- 参考スコア(独自算出の注目度): 56.41097718862742
- License:
- Abstract: Quality pretraining data is often seen as the key to high-performance language models. However, progress in understanding pretraining data has been slow due to the costly pretraining runs required for data selection experiments. We present a framework that avoids these costs and selects high-quality pretraining data without any LLM training of our own. Our work is based on a simple observation: LLM losses on many pretraining texts are correlated with downstream benchmark performance, and selecting high-correlation documents is an effective pretraining data selection method. We build a new statistical framework for data selection centered around estimates of perplexity-benchmark correlations and perform data selection using a sample of 90 LLMs taken from the Open LLM Leaderboard on texts from tens of thousands of web domains. In controlled pretraining experiments at the 160M parameter scale on 8 benchmarks, our approach outperforms DSIR on every benchmark, while matching the best data selector found in DataComp-LM, a hand-engineered bigram classifier. We have now also updated this paper to include results from preregistered experiments with new pretraining data on an aggregation of 22 benchmarks up to the 1.4B scale, showing increasing improvements of our method over others with more scale. A pip package with full documentation can be found here: https://github.com/TristanThrush/perplexity-correlations.
- Abstract(参考訳): 品質事前学習データは、しばしば高性能言語モデルの鍵と見なされる。
しかし,データ選択実験に必要な事前学習に要する費用がかかるため,事前学習データの理解の進展は遅かった。
我々は、これらのコストを回避し、LLMトレーニングなしで高品質な事前学習データを選択するフレームワークを提案する。
本研究は,多くの事前学習テキストにおけるLCM損失とダウンストリームベンチマーク性能との相関性,および高相関文書の選択が効果的な事前学習データ選択方法であることを示す。
我々は,数万のWebドメインのテキスト上で,Open LLM Leaderboardから採取した90個のLLMのサンプルを用いて,パープレキシティとベンチマークの相関関係の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
8つのベンチマークにおける1億6000万のパラメータスケールの事前学習実験において,本手法は,手動のBigram分類器であるDataComp-LMの最良のデータセレクタとマッチングしながら,各ベンチマークにおいてDSIRよりも優れていた。
また,本論文は,新たな事前学習データを用いた事前登録実験の結果を1.4Bスケールまでのベンチマーク22件に含めるように更新した。
完全なドキュメンテーションを備えたpipパッケージは、https://github.com/TristanThrush/perplexity-correlationsにある。
関連論文リスト
- Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。
モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。
我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-21T13:12:13Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。
このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文 参考訳(メタデータ) (2024-10-10T16:45:28Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。