論文の概要: Automatic Document Selection for Efficient Encoder Pretraining
- arxiv url: http://arxiv.org/abs/2210.10951v1
- Date: Thu, 20 Oct 2022 01:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:22:48.153841
- Title: Automatic Document Selection for Efficient Encoder Pretraining
- Title(参考訳): 効率的なエンコーダ事前学習のための文書自動選択
- Authors: Yukun Feng, Patrick Xia, Benjamin Van Durme and Jo\~ao Sedoc
- Abstract要約: より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々はOntoNotes corpusをターゲットドメインとして扱い、Pileのシニカルに選択されたサブセットからRoBERTaライクなエンコーダを事前訓練する。
ターゲットドメイン内の複数のダウンストリームタスクの両方において、ランダム選択を一貫して20倍少ないデータ、3倍のトレーニングイテレーション、3倍のクラウド計算コストでパフォーマンスします。
- 参考スコア(独自算出の注目度): 31.941315346316465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building pretrained language models is considered expensive and
data-intensive, but must we increase dataset size to achieve better
performance? We propose an alternative to larger training sets by automatically
identifying smaller yet domain-representative subsets. We extend Cynical Data
Selection, a statistical sentence scoring method that conditions on a
representative target domain corpus. As an example, we treat the OntoNotes
corpus as a target domain and pretrain a RoBERTa-like encoder from a cynically
selected subset of the Pile. On both perplexity and across several downstream
tasks in the target domain, it consistently outperforms random selection with
20x less data, 3x fewer training iterations, and 2x less estimated cloud
compute cost, validating the recipe of automatic document selection for LM
pretraining.
- Abstract(参考訳): 事前訓練された言語モデルの構築は高価でデータ集約的だが、パフォーマンス向上のためにデータセットのサイズを増やしなければならないだろうか?
より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々は,代表対象領域のコーパスに条件を付ける統計文スコアリング手法であるCynical Data Selectionを拡張した。
例えば、OntoNotesコーパスをターゲットドメインとして扱い、周期的に選択されたパイルサブセットからRoBERTaライクエンコーダを事前訓練する。
パープレキシティとターゲットドメイン内のいくつかのダウンストリームタスクの両方において、lmプリトレーニングのための自動ドキュメント選択のレシピを検証するため、データ20倍、トレーニングイテレーション3倍、推定クラウド計算コスト2倍というランダム選択を一貫して上回っています。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Pseudo-label Based Domain Adaptation for Zero-Shot Text Steganalysis [10.587545153412314]
擬似ラベルとドメイン適応(教師なし学習)に基づくドメイン間ステゴテキスト分析法(PDTS)
我々は、ラベル付きソースドメインデータを用いてモデルをトレーニングし、自己学習を通じてラベルなしのターゲットドメインデータに対して擬似ラベルを用いて、ターゲットドメインデータ分布に適応する。
実験結果から,本手法はゼロショットテキストステガナリシスタスクにおいて良好に動作し,対象領域にラベル付きデータがない場合でも高い検出精度を実現し,現在のゼロショットテキストステガナリシス手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-01T04:19:07Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。