論文の概要: Data Selection for Language Models via Importance Resampling
- arxiv url: http://arxiv.org/abs/2302.03169v1
- Date: Mon, 6 Feb 2023 23:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:54:28.232186
- Title: Data Selection for Language Models via Importance Resampling
- Title(参考訳): 重要再サンプリングによる言語モデルのデータ選択
- Authors: Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang
- Abstract要約: 我々は、このデータ選択問題を、望まれるターゲット分布に合わせるために、大きな未ラベルデータセットのサブセットを選択するものとして定式化する。
本稿では,特徴量削減における重み付けを推定する効率的かつスケーラブルなアルゴリズムであるData Selection with Importance Resampling(DSIR)を提案する。
汎用ドメインモデルをトレーニングする場合(ターゲットはWikipedia+書籍)、DSIRはGLUEベンチマークでランダム選択とフィルタリングベースラインを2-2.5%改善する。
- 参考スコア(独自算出の注目度): 107.98702080623427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting a suitable training dataset is crucial for both general-domain
(e.g., GPT-3) and domain-specific (e.g., Codex) language models (LMs). We
formalize this data selection problem as selecting a subset of a large raw
unlabeled dataset to match a desired target distribution, given some unlabeled
target samples. Due to the large scale and dimensionality of the raw text data,
existing methods use simple heuristics to select data that are similar to a
high-quality reference corpus (e.g., Wikipedia), or leverage experts to
manually curate data. Instead, we extend the classic importance resampling
approach used in low-dimensions for LM data selection. Crucially, we work in a
reduced feature space to make importance weight estimation tractable over the
space of text. To determine an appropriate feature space, we first show that KL
reduction, a data metric that measures the proximity between selected data and
the target in a feature space, has high correlation with average accuracy on 8
downstream tasks (r=0.89) when computed with simple n-gram features. From this
observation, we present Data Selection with Importance Resampling (DSIR), an
efficient and scalable algorithm that estimates importance weights in a reduced
feature space (e.g., n-gram features in our instantiation) and selects data
with importance resampling according to these weights. When training
general-domain models (target is Wikipedia + books), DSIR improves over random
selection and heuristic filtering baselines by 2--2.5% on the GLUE benchmark.
When performing continued pretraining towards a specific domain, DSIR performs
comparably to expert curated data across 8 target distributions.
- Abstract(参考訳): 適切なトレーニングデータセットを選択することは、一般ドメイン(gpt-3など)とドメイン固有言語モデル(例えば、コードx)の両方に不可欠である。
我々は、このデータ選択問題を、ラベルなしのターゲットサンプルを与えられた場合に、所望のターゲット分布にマッチする大きな生のラベルなしデータセットのサブセットを選択することで定式化する。
テキストデータの大規模化と次元性のため、既存の手法では単純なヒューリスティックを使って、高品質な参照コーパス(例えばウィキペディア)に似たデータを選択するか、専門家を利用してデータを手作業でキュレートする。
代わりに、lmデータ選択に低次元で使用される古典的な重要度再サンプリングアプローチを拡張します。
重要なことに、私たちはテキストの空間上で重み付けを重要視するために、機能領域の縮小に取り組んでいる。
適切な特徴空間を決定するために、まず、選択したデータと特徴空間のターゲットとの近接度を測定するデータ計量であるKL還元が、単純なn-gram特徴量で計算した場合の8つの下流タスク(r=0.89)の平均精度と高い相関を持つことを示す。
この結果から,データ選択と重要度再サンプリング(DSIR)を提案する。このアルゴリズムは,特徴空間の重み付け(即時化におけるn-gramの特徴など)を推定し,重み付けによる重要度再サンプリングデータを選択する。
汎用ドメインモデルをトレーニングする場合(ターゲットはWikipedia+書籍)、DSIRはGLUEベンチマークでランダム選択とヒューリスティックフィルタリングベースラインを2~2.5%改善する。
特定の領域に向けて事前トレーニングを継続する場合、DSIRは8つのターゲットディストリビューションにわたる専門家のキュレートされたデータに対して可視的に実行する。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training [10.511388205893295]
本稿では,ベイズに触発された経験的アプローチを利用して,単純で効率的な選択基準を導出するデータ選択手法であるCoLoR-Filterを提案する。
CoLoR-Filterは1.2bパラメータターゲットモデルをトレーニングして、ランダムに選択された25bトークン上でトレーニングされた1.2bパラメータモデルにマッチさせることができる。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Automatic Document Selection for Efficient Encoder Pretraining [31.941315346316465]
より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々はOntoNotes corpusをターゲットドメインとして扱い、Pileのシニカルに選択されたサブセットからRoBERTaライクなエンコーダを事前訓練する。
ターゲットドメイン内の複数のダウンストリームタスクの両方において、ランダム選択を一貫して20倍少ないデータ、3倍のトレーニングイテレーション、3倍のクラウド計算コストでパフォーマンスします。
論文 参考訳(メタデータ) (2022-10-20T01:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。