論文の概要: Specialized Language Models with Cheap Inference from Limited Domain
Data
- arxiv url: http://arxiv.org/abs/2402.01093v1
- Date: Fri, 2 Feb 2024 01:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:17:11.133253
- Title: Specialized Language Models with Cheap Inference from Limited Domain
Data
- Title(参考訳): 限定領域データからのチープ推論を持つ特殊言語モデル
- Authors: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
- Abstract要約: 本研究は,事前訓練予算,特殊化予算,推論予算,ドメイン内トレーニングセットサイズという,4つの重要な変数を定式化する。
ハイパーネットワークと専門家の混在は、大規模な事前トレーニング予算においてより複雑であることを示し、重要なサンプルデータセットに基づいてトレーニングされた小さなモデルは、大規模な特殊化予算にとって魅力的なものである。
- 参考スコア(独自算出の注目度): 26.641553493097252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have emerged as a versatile tool but are challenging to
apply to tasks lacking large inference budgets and large in-domain training
sets. This work formalizes these constraints and distinguishes four important
variables: the pretraining budget (for training before the target domain is
known), the specialization budget (for training after the target domain is
known), the inference budget, and the in-domain training set size. Across these
settings, we compare different approaches from the machine learning literature.
Limited by inference cost, we find better alternatives to the standard practice
of training very large vanilla transformer models. In particular, we show that
hyper-networks and mixture of experts have better perplexity for large
pretraining budgets, while small models trained on importance sampled datasets
are attractive for large specialization budgets.
- Abstract(参考訳): 大規模言語モデルは汎用ツールとして登場したが、大きな推論予算と大きなドメイン内トレーニングセットを持たないタスクに適用することは困難である。
この研究はこれらの制約を定式化し、4つの重要な変数を区別する:事前訓練予算(対象ドメインが知られる前のトレーニング)、特殊化予算(対象ドメインが知られる前のトレーニング)、推論予算、ドメイン内のトレーニングセットサイズ。
これらの設定で、機械学習の文献と異なるアプローチを比較します。
推論コストの制限により、非常に大きなバニラ変圧器モデルを訓練する標準的な方法よりも優れた選択肢が見つかる。
特に、ハイパーネットワークと専門家の混合は、大きな事前訓練予算においてより複雑であり、サンプルデータセットの重要性に基づいて訓練された小さなモデルは、大規模な特殊化予算にとって魅力的であることを示している。
関連論文リスト
- Contrastive Learning and Mixture of Experts Enables Precise Vector
Embeddings [0.0]
トランスフォーマーニューラルネットワークは、自然言語入力の効率的なベクトル表現を生成する。
これらのモデルはドメイン固有のコンテキストにおいて顕著な課題に直面します。
我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。
論文 参考訳(メタデータ) (2024-01-28T17:34:42Z) - In-Context Reinforcement Learning for Variable Action Spaces [49.05502570281514]
Headless-ADは、可変サイズ、セマンティックコンテンツ、順序の離散的なアクション空間に一般化することができる。
我々は、ヘッドレスADは、これまでに遭遇したことのないアクション空間に一般化する重要な能力を示すことを示した。
論文 参考訳(メタデータ) (2023-12-20T16:58:55Z) - Irreducible Curriculum for Language Model Pretraining [46.895234111411426]
本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。
RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
論文 参考訳(メタデータ) (2023-10-23T22:41:33Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Selective Pre-training for Private Fine-tuning [35.001566062691666]
パブリックデータセットのエムサブセットに対する注意深い事前学習が、小さなDP言語モデルのトレーニングに不可欠であることを示す。
我々のフレームワークはまた、注意深い事前トレーニングとプライベートな微調整によって、より小さなモデルの方がはるかに大きなモデルの性能にマッチすることを示している。
論文 参考訳(メタデータ) (2023-05-23T09:36:58Z) - Pre-train or Annotate? Domain Adaptation with a Constrained Budget [25.44621972274297]
固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきだろうか?
3つの手続き的テキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定する。
小さな予算では、アノテーションにすべての資金を費やすことが、最高のパフォーマンスにつながります。
論文 参考訳(メタデータ) (2021-09-10T07:28:26Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Transformer Based Multi-Source Domain Adaptation [53.24606510691877]
実践的な機械学習設定では、モデルを予測しなければならないデータは、トレーニングされたデータとは異なる分布から生まれることが多い。
本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。
本研究では,大規模な事前学習型変圧器を用いたドメインエキスパートの予測が極めて均質であることを示し,それらの予測を混在させる効果的な関数の学習を困難にしている。
論文 参考訳(メタデータ) (2020-09-16T16:56:23Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。