Fugu-MT 論文翻訳(概要): Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

論文の概要: Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

arxiv url: http://arxiv.org/abs/2502.02494v2
Date: Thu, 13 Feb 2025 05:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 13:25:30.792852
Title: Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
Title（参考訳）: 言語モデル事前学習のためのデータ選択のための類似度メトリクスの解析
Authors: Dylan Sam, Ayan Chakrabarti, Afshin Rostamizadeh, Srikumar Ramalingam, Gui Citovsky, Sanjiv Kumar,
Abstract要約: トレーニング例間の類似性は、言語モデルの事前トレーニングデータセットをキュレートするために使用される。本稿では,言語モデル事前学習環境におけるデータキュレーションに特化した埋め込みモデルの適合性を分析するためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 45.802146203273196
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Similarity between training examples is used to curate pretraining datasets for language models by many methods -- for diversification and to select examples similar to high-quality data. However, similarity is typically measured with off-the-shelf embedding models that are generic or trained for tasks such as retrieval. This paper introduces a framework to analyze the suitability of embedding models specifically for data curation in the language model pretraining setting. We quantify the correlation between similarity in the embedding space to similarity in pretraining loss between different training examples, and how diversifying in the embedding space affects pretraining quality. We analyze a variety of embedding models in our framework, with experiments using the Pile dataset for pretraining a 1.7B parameter decoder-only language model. We find that the embedding models we consider are all useful for pretraining data curation. Moreover, a simple approach of averaging per-token embeddings proves to be surprisingly competitive with more sophisticated embedding models -- likely because the latter are not designed specifically for pretraining data curation. Indeed, we believe our analysis and evaluation framework can serve as a foundation for the design of embedding models that specifically reason about similarity in pretraining datasets.
Abstract（参考訳）: トレーニング例間の類似性は、さまざまな方法で言語モデルの事前トレーニングデータセットをキュレートするために使われます。しかしながら、類似性は典型的には、検索などのタスクに対して汎用的または訓練された既成の埋め込みモデルで測定される。本稿では,言語モデル事前学習環境におけるデータキュレーションに特化した埋め込みモデルの適合性を分析するためのフレームワークを提案する。組込み空間における類似度と、異なるトレーニング例間の事前学習損失の類似度との相関を定量化し、組込み空間における多様化が事前学習品質に与える影響を検証した。我々は、Pileデータセットを用いて1.7Bパラメータデコーダのみの言語モデルを事前学習する実験を行い、フレームワーク内の様々な埋め込みモデルを分析する。私たちが考慮している埋め込みモデルは、すべてデータキュレーションの事前トレーニングに役立ちます。さらに、トーケン毎の埋め込みを平均化する単純なアプローチは、より洗練された埋め込みモデルと驚くほど競合することを示している。実際、我々の分析と評価のフレームワークは、事前学習データセットの類似性を特に理由づけた埋め込みモデルの設計の基盤となると信じています。

関連論文リスト

The interplay between domain specialization and model size: a case study in the legal domain [8.653321928148547]
計算制約シナリオ下での連続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。私たちのゴールは、このシナリオの計算効率のよいトレーニング体制を特定することです。モデルのサイズが大きくなると、特殊モデルと一般モデルの間の計算効率のギャップが広がる。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文参考訳（メタデータ） (2024-10-21T06:03:49Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文参考訳（メタデータ） (2024-04-01T16:00:01Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
Beyond Simple Averaging: Improving NLP Ensemble Performance with Topological-Data-Analysis-Based Weighting [2.6862667248315386]
自然言語処理では、複数の大きなモデルがオープンソースで利用可能なため、アンサンブルによってメソッドのパフォーマンスが向上する。我々は,NLPモデルのアンサンブルに対する重み付けを,個々の性能の知識だけでなく,互いに類似した知識を用いて推定することを提案する。
論文参考訳（メタデータ） (2024-02-22T00:04:21Z)
Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。類似度指標は正確性や相互に相関しない。これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文参考訳（メタデータ） (2023-11-15T14:48:08Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文参考訳（メタデータ） (2022-03-14T20:13:21Z)
Tracing Origins: Coref-aware Machine Reading Comprehension [43.352833140317486]
そこで,本研究では,アナフォリック表現を接続する際の人間の読影過程を模倣し,コア参照情報を活用し,事前学習モデルから単語の埋め込みを強化する。学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていたことを実証した。
論文参考訳（メタデータ） (2021-10-15T09:28:35Z)
Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文参考訳（メタデータ） (2021-09-28T05:30:52Z)
Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文参考訳（メタデータ） (2019-12-30T09:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。