論文の概要: BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2510.06048v2
- Date: Wed, 08 Oct 2025 17:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.206517
- Title: BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining
- Title(参考訳): BLISS: 言語モデル事前学習におけるデータ選択のための軽量なバイレベルインフルエンス・スコーリング手法
- Authors: Jie Hao, Rui Yu, Wei Zhang, Huixia Wang, Jie Xu, Mingrui Liu,
- Abstract要約: BLISSは、外部の事前訓練されたオラクルモデルに頼ることなく、スクラッチから完全に高速に動作する軽量なデータ選択方法である。
C4データセットの選択したサブセット上で、410M/1B/2.8B PythiaとLLaMA-0.5Bモデルを事前学習することでBLISSを検証する。
BLISSは最先端の手法と同じ性能に達すると1.7倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 28.32850393150554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective data selection is essential for pretraining large language models (LLMs), enhancing efficiency and improving generalization to downstream tasks. However, existing approaches often require leveraging external pretrained models, making it difficult to disentangle the effects of data selection from those of the external pretrained models. In addition, they often overlook the long-term impact of selected data if the model is trained to convergence, primarily due to the prohibitive cost of full-scale LLM pretraining. In this paper, we introduce BLISS (\textbf{B}ileve\textbf{L} \textbf{I}nfluence \textbf{S}coring method for data \textbf{S}election): a lightweight data selection method that operates entirely \emph{from scratch}, without relying on any external pretrained oracle models, while explicitly accounting for the long-term impact of selected data. BLISS leverages a small proxy model as a surrogate for the LLM and employs a score model to estimate the long-term influence of training samples if the proxy model is trained to convergence. We formulate data selection as a bilevel optimization problem, where the upper-level objective optimizes the score model to assign importance weights to training samples, ensuring that minimizing the lower-level objective (i.e., training the proxy model over the weighted training loss until convergence) leads to best validation performance. Once optimized, the trained score model predicts influence scores for the dataset, enabling efficient selection of high-quality samples for LLM pretraining. We validate BLISS by pretraining 410M/1B/2.8B Pythia and LLaMA-0.5B models on selected subsets of the C4 dataset. Notably, under the 1B model setting, BLISS achieves $1.7\times$ speedup in reaching the same performance as the state-of-the-art method, demonstrating superior performance across multiple downstream tasks.
- Abstract(参考訳): 大規模な言語モデル(LLM)を事前訓練し、効率を向上し、下流タスクへの一般化を改善するためには、効果的なデータ選択が不可欠である。
しかし、既存のアプローチでは、しばしば外部の事前訓練されたモデルを活用する必要があるため、外部の事前訓練されたモデルとデータ選択の影響を遠ざけることは困難である。
さらに、モデルが収束するように訓練された場合、選択されたデータの長期的影響をしばしば見落としている。
本稿では, BLISS (\textbf{B}ileve\textbf{L} \textbf{I}nfluence \textbf{S}coring method for data \textbf{S}election): 選択したデータの長期的影響を明示的に考慮しつつ, 外部の事前学習されたオラクルモデルに頼ることなく, 完全に\emph{from scratch} を動作させる軽量データ選択手法を提案する。
BLISSは小さなプロキシモデルをLCMのサロゲートとして利用し、スコアモデルを使用して、プロキシモデルが収束するようにトレーニングされた場合のトレーニングサンプルの長期的な影響を推定する。
両レベル最適化問題としてデータ選択を定式化し、上位レベル目標がスコアモデルを最適化し、トレーニングサンプルに重み付けを割り当て、下位レベル目標(収束まで重み付けされたトレーニング損失に対してプロキシモデルをトレーニングするなど)を最小化することで、最高の検証性能が得られるようにした。
一度最適化されると、トレーニングされたスコアモデルはデータセットへの影響を予測し、LLM事前学習のための高品質なサンプルの効率的な選択を可能にする。
C4データセットの選択したサブセット上で、410M/1B/2.8B PythiaとLLaMA-0.5Bモデルを事前学習することでBLISSを検証する。
特に、1Bモデル設定では、BLISSは最先端の手法と同じパフォーマンスを達成するために1.7\times$のスピードアップを達成し、複数のダウンストリームタスクで優れたパフォーマンスを示す。
関連論文リスト
- LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。
実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。
さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-22T02:47:12Z) - Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-25T09:08:00Z) - A Self-Supervised Paradigm for Data-Efficient Medical Foundation Model Pre-training: V-information Optimization Framework [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
近年の研究では、データ効率のよい学習手法を導入して、この共通パラダイムに挑戦している。
本稿では, 基本モデルの自己教師型事前学習にV情報を導入し, サンプル選択の理論的基礎を提供する。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models [16.654859430784825]
手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
データ影響モデル(MATES)を用いたモデル認識データ選択を導入し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、現在の事前学習の進行に最も有効なデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-10T06:27:42Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。