論文の概要: Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2502.02494v3
- Date: Tue, 21 Oct 2025 05:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:03.61716
- Title: Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
- Title(参考訳): 言語モデル事前学習のためのデータ選択のための類似度メトリクスの解析
- Authors: Dylan Sam, Ayan Chakrabarti, Afshin Rostamizadeh, Srikumar Ramalingam, Gui Citovsky, Sanjiv Kumar,
- Abstract要約: トレーニング例間の類似性の測定は、言語モデルのための高品質で多様な事前学習データセットのキュレーションに不可欠である。
標準オフザシェルフ埋め込みモデルは、事前学習データキュレーション設定には適していない。
- 参考スコア(独自算出の注目度): 39.02299450717135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring similarity between training examples is critical for curating high-quality and diverse pretraining datasets for language models. However, similarity is typically computed with a generic off-the-shelf embedding model that has been trained for tasks such as retrieval. Whether these embedding-based similarity metrics are well-suited for pretraining data selection remains largely unexplored. In this paper, we propose a new framework to assess the suitability of a similarity metric specifically for data curation in language model pretraining applications. Our framework's first evaluation criterion captures how well distances reflect generalization in pretraining loss between different training examples. Next, we use each embedding model to guide a standard diversity-based data curation algorithm and measure its utility by pretraining a language model on the selected data and evaluating downstream task performance. Finally, we evaluate the capabilities of embeddings to distinguish between examples from different data sources. With these evaluations, we demonstrate that standard off-the-shelf embedding models are not well-suited for the pretraining data curation setting, underperforming even remarkably simple embeddings that are extracted from models trained on the same pretraining corpus. Our experiments are performed on the Pile, for pretraining a 1.7B parameter language model on 200B tokens. We believe our analysis and evaluation framework serves as a foundation for the future design of embeddings that specifically reason about similarity in pretraining datasets.
- Abstract(参考訳): トレーニング例間の類似性の測定は、言語モデルのための高品質で多様な事前学習データセットのキュレーションに不可欠である。
しかし、類似性は通常、検索などのタスクのために訓練された一般的なオフザシェルフ埋め込みモデルで計算される。
これらの埋め込みベースの類似度指標が、事前学習データ選択に適しているかどうかは、まだ明らかになっていない。
本稿では,言語モデル事前学習アプリケーションにおけるデータキュレーションのための類似度尺度の適合性を評価するための新しいフレームワークを提案する。
フレームワークの最初の評価基準は、異なるトレーニング例間の事前学習損失において、距離がいかに一般化を反映しているかをキャプチャする。
次に、各埋め込みモデルを用いて、標準の多様性に基づくデータキュレーションアルゴリズムを導出し、選択したデータ上で言語モデルを事前学習し、下流タスク性能を評価することで、その有用性を計測する。
最後に、異なるデータソースの例を区別するために、埋め込みの能力を評価する。
これらの評価により、標準のオフザシェルフ埋め込みモデルは、事前学習データキュレーション設定に適さないことが示され、同じ事前学習コーパスで訓練されたモデルから抽出された、驚くほど単純な埋め込みでさえも性能が劣る。
我々は,200Bトークン上で1.7Bパラメータ言語モデルを事前学習するために,Pile上で実験を行った。
分析と評価のフレームワークは、プレトレーニングデータセットの類似性を特に理由づけた埋め込みの将来の設計の基盤となると信じています。
関連論文リスト
- The interplay between domain specialization and model size: a case study in the legal domain [8.653321928148547]
計算制約シナリオ下での連続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
私たちのゴールは、このシナリオの計算効率のよいトレーニング体制を特定することです。
モデルのサイズが大きくなると、特殊モデルと一般モデルの間の計算効率のギャップが広がる。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。
任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文 参考訳(メタデータ) (2024-10-21T06:03:49Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Beyond Simple Averaging: Improving NLP Ensemble Performance with Topological-Data-Analysis-Based Weighting [2.6862667248315386]
自然言語処理では、複数の大きなモデルがオープンソースで利用可能なため、アンサンブルによってメソッドのパフォーマンスが向上する。
我々は,NLPモデルのアンサンブルに対する重み付けを,個々の性能の知識だけでなく,互いに類似した知識を用いて推定することを提案する。
論文 参考訳(メタデータ) (2024-02-22T00:04:21Z) - Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。
類似度指標は正確性や相互に相関しない。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文 参考訳(メタデータ) (2023-11-15T14:48:08Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Tracing Origins: Coref-aware Machine Reading Comprehension [43.352833140317486]
そこで,本研究では,アナフォリック表現を接続する際の人間の読影過程を模倣し,コア参照情報を活用し,事前学習モデルから単語の埋め込みを強化する。
学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていたことを実証した。
論文 参考訳(メタデータ) (2021-10-15T09:28:35Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。