論文の概要: Specialized Language Models with Cheap Inference from Limited Domain
Data
- arxiv url: http://arxiv.org/abs/2402.01093v1
- Date: Fri, 2 Feb 2024 01:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:17:11.133253
- Title: Specialized Language Models with Cheap Inference from Limited Domain
Data
- Title(参考訳): 限定領域データからのチープ推論を持つ特殊言語モデル
- Authors: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
- Abstract要約: 本研究は,事前訓練予算,特殊化予算,推論予算,ドメイン内トレーニングセットサイズという,4つの重要な変数を定式化する。
ハイパーネットワークと専門家の混在は、大規模な事前トレーニング予算においてより複雑であることを示し、重要なサンプルデータセットに基づいてトレーニングされた小さなモデルは、大規模な特殊化予算にとって魅力的なものである。
- 参考スコア(独自算出の注目度): 26.641553493097252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have emerged as a versatile tool but are challenging to
apply to tasks lacking large inference budgets and large in-domain training
sets. This work formalizes these constraints and distinguishes four important
variables: the pretraining budget (for training before the target domain is
known), the specialization budget (for training after the target domain is
known), the inference budget, and the in-domain training set size. Across these
settings, we compare different approaches from the machine learning literature.
Limited by inference cost, we find better alternatives to the standard practice
of training very large vanilla transformer models. In particular, we show that
hyper-networks and mixture of experts have better perplexity for large
pretraining budgets, while small models trained on importance sampled datasets
are attractive for large specialization budgets.
- Abstract(参考訳): 大規模言語モデルは汎用ツールとして登場したが、大きな推論予算と大きなドメイン内トレーニングセットを持たないタスクに適用することは困難である。
この研究はこれらの制約を定式化し、4つの重要な変数を区別する:事前訓練予算(対象ドメインが知られる前のトレーニング)、特殊化予算(対象ドメインが知られる前のトレーニング)、推論予算、ドメイン内のトレーニングセットサイズ。
これらの設定で、機械学習の文献と異なるアプローチを比較します。
推論コストの制限により、非常に大きなバニラ変圧器モデルを訓練する標準的な方法よりも優れた選択肢が見つかる。
特に、ハイパーネットワークと専門家の混合は、大きな事前訓練予算においてより複雑であり、サンプルデータセットの重要性に基づいて訓練された小さなモデルは、大規模な特殊化予算にとって魅力的であることを示している。
関連論文リスト
- Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。
スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文 参考訳(メタデータ) (2024-09-30T20:49:54Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Irreducible Curriculum for Language Model Pretraining [46.895234111411426]
本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。
RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
論文 参考訳(メタデータ) (2023-10-23T22:41:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。