論文の概要: Data Selection for Language Models via Importance Resampling
- arxiv url: http://arxiv.org/abs/2302.03169v3
- Date: Sat, 18 Nov 2023 21:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:39:42.257414
- Title: Data Selection for Language Models via Importance Resampling
- Title(参考訳): 重要再サンプリングによる言語モデルのデータ選択
- Authors: Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang
- Abstract要約: 我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
- 参考スコア(独自算出の注目度): 90.9263039747723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting a suitable pretraining dataset is crucial for both general-domain
(e.g., GPT-3) and domain-specific (e.g., Codex) language models (LMs). We
formalize this problem as selecting a subset of a large raw unlabeled dataset
to match a desired target distribution given unlabeled target samples. Due to
the scale and dimensionality of the raw text data, existing methods use simple
heuristics or require human experts to manually curate data. Instead, we extend
the classic importance resampling approach used in low-dimensions for LM data
selection. We propose Data Selection with Importance Resampling (DSIR), an
efficient and scalable framework that estimates importance weights in a reduced
feature space for tractability and selects data with importance resampling
according to these weights. We instantiate the DSIR framework with hashed
n-gram features for efficiency, enabling the selection of 100M documents from
the full Pile dataset in 4.5 hours. To measure whether hashed n-gram features
preserve the aspects of the data that are relevant to the target, we define KL
reduction, a data metric that measures the proximity between the selected
pretraining data and the target on some feature space. Across 8 data selection
methods (including expert selection), KL reduction on hashed n-gram features
highly correlates with average downstream accuracy (r=0.82). When selecting
data for continued pretraining on a specific domain, DSIR performs comparably
to expert curation across 8 target distributions. When pretraining
general-domain models (target is Wikipedia and books), DSIR improves over
random selection and heuristic filtering baselines by 2-2.5% on the GLUE
benchmark. Code is available at https://github.com/p-lambda/dsir.
- Abstract(参考訳): 適切な事前学習データセットの選択は、一般ドメイン(gpt-3など)とドメイン固有言語モデル(例えば、コードx)の両方において不可欠である。
この問題を、ラベルなしのターゲットサンプルが与えられた場合に、所望のターゲット分布にマッチするように、大きな生のラベルなしデータセットのサブセットを選択することで定式化する。
生のテキストデータのスケールと寸法のため、既存の手法では単純なヒューリスティックを使うか、人間の専門家が手動でデータをキュレートする必要がある。
代わりに、lmデータ選択に低次元で使用される古典的な重要度再サンプリングアプローチを拡張します。
本研究では,トラクタビリティの低減した特徴空間における重み付けを推定し,重み付けによる重み付けを伴うデータを選択する,効率的でスケーラブルなフレームワークであるData Selection with Importance Resampling(DSIR)を提案する。
DSIRフレームワークを効率よくハッシュn-gram機能でインスタンス化し、完全なPileデータセットから1億のドキュメントを4.5時間で選択できる。
ハッシュn-gram特徴が対象に関連のあるデータの側面を保持するかどうかを測定するために,選択した事前学習データと特徴空間上のターゲットとの近接度を測定するデータ計量であるKL短縮を定義する。
8つのデータ選択方法(専門家の選択を含む)において、ハッシュn-gramのKL削減は平均下流精度と高い相関関係を持つ(r=0.82)。
特定のドメイン上で継続事前学習のためのデータを選択する場合、DSIRは8つのターゲット分布にわたる専門家のキュレーションに相容れない。
汎用ドメインモデル(ウィキペディアと書籍)を事前訓練する場合、DSIRはGLUEベンチマークでランダム選択とヒューリスティックフィルタリングベースラインを2-2.5%改善する。
コードはhttps://github.com/p-lambda/dsirで入手できる。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training [10.511388205893295]
本稿では,ベイズに触発された経験的アプローチを利用して,単純で効率的な選択基準を導出するデータ選択手法であるCoLoR-Filterを提案する。
CoLoR-Filterは1.2bパラメータターゲットモデルをトレーニングして、ランダムに選択された25bトークン上でトレーニングされた1.2bパラメータモデルにマッチさせることができる。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Automatic Document Selection for Efficient Encoder Pretraining [31.941315346316465]
より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々はOntoNotes corpusをターゲットドメインとして扱い、Pileのシニカルに選択されたサブセットからRoBERTaライクなエンコーダを事前訓練する。
ターゲットドメイン内の複数のダウンストリームタスクの両方において、ランダム選択を一貫して20倍少ないデータ、3倍のトレーニングイテレーション、3倍のクラウド計算コストでパフォーマンスします。
論文 参考訳(メタデータ) (2022-10-20T01:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。