論文の概要: Data Selection for Language Models via Importance Resampling
- arxiv url: http://arxiv.org/abs/2302.03169v1
- Date: Mon, 6 Feb 2023 23:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:54:28.232186
- Title: Data Selection for Language Models via Importance Resampling
- Title(参考訳): 重要再サンプリングによる言語モデルのデータ選択
- Authors: Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang
- Abstract要約: 我々は、このデータ選択問題を、望まれるターゲット分布に合わせるために、大きな未ラベルデータセットのサブセットを選択するものとして定式化する。
本稿では,特徴量削減における重み付けを推定する効率的かつスケーラブルなアルゴリズムであるData Selection with Importance Resampling(DSIR)を提案する。
汎用ドメインモデルをトレーニングする場合(ターゲットはWikipedia+書籍)、DSIRはGLUEベンチマークでランダム選択とフィルタリングベースラインを2-2.5%改善する。
- 参考スコア(独自算出の注目度): 107.98702080623427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting a suitable training dataset is crucial for both general-domain
(e.g., GPT-3) and domain-specific (e.g., Codex) language models (LMs). We
formalize this data selection problem as selecting a subset of a large raw
unlabeled dataset to match a desired target distribution, given some unlabeled
target samples. Due to the large scale and dimensionality of the raw text data,
existing methods use simple heuristics to select data that are similar to a
high-quality reference corpus (e.g., Wikipedia), or leverage experts to
manually curate data. Instead, we extend the classic importance resampling
approach used in low-dimensions for LM data selection. Crucially, we work in a
reduced feature space to make importance weight estimation tractable over the
space of text. To determine an appropriate feature space, we first show that KL
reduction, a data metric that measures the proximity between selected data and
the target in a feature space, has high correlation with average accuracy on 8
downstream tasks (r=0.89) when computed with simple n-gram features. From this
observation, we present Data Selection with Importance Resampling (DSIR), an
efficient and scalable algorithm that estimates importance weights in a reduced
feature space (e.g., n-gram features in our instantiation) and selects data
with importance resampling according to these weights. When training
general-domain models (target is Wikipedia + books), DSIR improves over random
selection and heuristic filtering baselines by 2--2.5% on the GLUE benchmark.
When performing continued pretraining towards a specific domain, DSIR performs
comparably to expert curated data across 8 target distributions.
- Abstract(参考訳): 適切なトレーニングデータセットを選択することは、一般ドメイン(gpt-3など)とドメイン固有言語モデル(例えば、コードx)の両方に不可欠である。
我々は、このデータ選択問題を、ラベルなしのターゲットサンプルを与えられた場合に、所望のターゲット分布にマッチする大きな生のラベルなしデータセットのサブセットを選択することで定式化する。
テキストデータの大規模化と次元性のため、既存の手法では単純なヒューリスティックを使って、高品質な参照コーパス(例えばウィキペディア)に似たデータを選択するか、専門家を利用してデータを手作業でキュレートする。
代わりに、lmデータ選択に低次元で使用される古典的な重要度再サンプリングアプローチを拡張します。
重要なことに、私たちはテキストの空間上で重み付けを重要視するために、機能領域の縮小に取り組んでいる。
適切な特徴空間を決定するために、まず、選択したデータと特徴空間のターゲットとの近接度を測定するデータ計量であるKL還元が、単純なn-gram特徴量で計算した場合の8つの下流タスク(r=0.89)の平均精度と高い相関を持つことを示す。
この結果から,データ選択と重要度再サンプリング(DSIR)を提案する。このアルゴリズムは,特徴空間の重み付け(即時化におけるn-gramの特徴など)を推定し,重み付けによる重要度再サンプリングデータを選択する。
汎用ドメインモデルをトレーニングする場合(ターゲットはWikipedia+書籍)、DSIRはGLUEベンチマークでランダム選択とヒューリスティックフィルタリングベースラインを2~2.5%改善する。
特定の領域に向けて事前トレーニングを継続する場合、DSIRは8つのターゲットディストリビューションにわたる専門家のキュレートされたデータに対して可視的に実行する。
関連論文リスト
- Finding Meaningful Distributions of ML Black-boxes under Forensic
Investigation [25.79728190384834]
ドキュメンテーションの不十分なニューラルネットワークモデルを考えると、モデルのデータドメインを知りたがっている法医学研究者の視点を捉えます。
本稿では、ImageNetなどの包括的コーパスを利用して意味のある分布を選択することで、この問題を解決することを提案する。
私たちのゴールは、与えられたモデルのためにコーパスからサンプルのセットを選択することです。
論文 参考訳(メタデータ) (2023-05-10T03:25:23Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴集合を学習し,対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Transfer Learning with Synthetic Corpora for Spatial Role Labeling and
Reasoning [15.082041039434365]
複数の空間言語処理タスクに2つの新しいデータリソースを提供する。
空間質問応答(SQA)と空間ロールラベリング(SpRL)の伝達学習のために、第1のデータセットを合成する。
第2のデータセットは、SPRLアノテーションを備えた既存のコーパス上に構築された人間生成の質問を備えた現実世界のSQAデータセットである。
論文 参考訳(メタデータ) (2022-10-30T21:23:34Z) - Automatic Document Selection for Efficient Encoder Pretraining [31.941315346316465]
より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々はOntoNotes corpusをターゲットドメインとして扱い、Pileのシニカルに選択されたサブセットからRoBERTaライクなエンコーダを事前訓練する。
ターゲットドメイン内の複数のダウンストリームタスクの両方において、ランダム選択を一貫して20倍少ないデータ、3倍のトレーニングイテレーション、3倍のクラウド計算コストでパフォーマンスします。
論文 参考訳(メタデータ) (2022-10-20T01:45:02Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Online Active Learning with Dynamic Marginal Gain Thresholding [72.62466575649879]
我々は,任意のデータストリームに対して,ストリームの最も価値の高いサブセットを一定要素まで抽出するオンラインアルゴリズムを提案する。
ImageNet と MNIST の予測タスクでは,提案手法が最大 5-20% のランダム選択より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。