論文の概要: Register Always Matters: Analysis of LLM Pretraining Data Through the Lens of Language Variation
- arxiv url: http://arxiv.org/abs/2504.01542v1
- Date: Wed, 02 Apr 2025 09:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:37.389549
- Title: Register Always Matters: Analysis of LLM Pretraining Data Through the Lens of Language Variation
- Title(参考訳): 登録常用事項:言語変化レンズによるLLM事前学習データの解析
- Authors: Amanda Myntti, Erik Henriksson, Veronika Laippala, Sampo Pyysalo,
- Abstract要約: 事前学習データの登録がモデルの性能に大きく影響を与えることを示す。
事前学習材料と結果モデルとの驚くべき関係を明らかにする。
我々は、レジスタがモデル変動の重要な説明者であり、より意図的な将来のデータ選択の実践を促進することができると結論付けている。
- 参考スコア(独自算出の注目度): 4.008456970593357
- License:
- Abstract: Pretraining data curation is a cornerstone in Large Language Model (LLM) development, leading to growing research on quality filtering of large web corpora. From statistical quality flags to LLM-based labeling systems, datasets are divided into categories, frequently reducing to a binary: those passing the filters deemed as valuable examples, others discarded as useless or detrimental. However, a more detailed understanding of the contribution of different kinds of texts to model performance is still largely lacking. In this article, we present the first study utilizing registers (also known as genres) - a widely used standard in corpus linguistics to model linguistic variation - to curate pretraining datasets and investigate the effect of register on the performance of LLMs. We perform comparative studies by training models with register classified data and evaluating them using standard benchmarks, and show that the register of pretraining data substantially affects model performance. We uncover surprising relationships between the pretraining material and the resulting models: using the News register results in subpar performance, and on the contrary, including the Opinion class, covering texts such as reviews and opinion blogs, is highly beneficial. While a model trained on the entire unfiltered dataset outperforms those trained on datasets limited to a single register, combining well-performing registers like How-to-Instructions, Informational Description, and Opinion leads to major improvements. Furthermore, analysis of individual benchmark results reveals key differences in the strengths and drawbacks of specific register classes as pretraining data. These findings show that register is an important explainer of model variation and can facilitate more deliberate future data selection practices.
- Abstract(参考訳): データキュレーションの事前訓練は、Large Language Model(LLM)開発における基礎であり、大規模なWebコーパスの品質フィルタリングの研究が増加している。
統計的品質フラグからLLMベースのラベルシステムまで、データセットはカテゴリに分けられ、しばしばバイナリに還元される。
しかし、様々なテキストのモデル性能への貢献に関するより詳細な理解は、いまだにほとんど欠落している。
本稿では,言語変化をモデル化するためにコーパス言語学で広く使用されているレジスタ(ジャンル)を利用して,事前学習データセットをキュレートし,登録がLLMの性能に与える影響について検討する。
分類されたデータを登録したモデルを用いて比較研究を行い、それらを標準ベンチマークを用いて評価し、事前学習データの登録がモデルの性能に大きく影響を与えることを示す。
我々は,事前学習材料と結果モデルとの間の驚くべき関係を明らかにする。ニュースレジスタを使用すれば,サブパーパフォーマンスが得られ,それとは対照的に,レビューや意見ブログなどのテキストをカバーするオピニオンクラスは,非常に有益である。
フィルタされていないデータセット全体をトレーニングしたモデルは、単一のレジスタに制限されたデータセットでトレーニングされたデータセットよりも優れていますが、ハウツーインストラクション、インフォメーション記述、オピニオンといった優れたレジスタを組み合わせることで、大きな改善がもたらされます。
さらに、個別のベンチマーク結果の分析により、事前学習データとして特定のレジスタクラスの長所と短所に重要な違いが示された。
これらの結果から,レジスタはモデル変動の重要な説明要因であり,より意図的なデータ選択の実践を促進することが示唆された。
関連論文リスト
- Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。
我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。
トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-01-24T18:50:26Z) - Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
特に、同じ領域内の少数の未確認データを微調整した後、電流スコアの偏差距離を測定することを提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。