論文の概要: Scaling Expert Language Models with Unsupervised Domain Discovery
- arxiv url: http://arxiv.org/abs/2303.14177v1
- Date: Fri, 24 Mar 2023 17:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:24:47.814913
- Title: Scaling Expert Language Models with Unsupervised Domain Discovery
- Title(参考訳): 教師なしドメインディスカバリによるエキスパート言語モデルのスケーリング
- Authors: Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff,
Noah A. Smith, Luke Zettlemoyer
- Abstract要約: 本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
- 参考スコア(独自算出の注目度): 107.08940500543447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are typically trained densely: all parameters are
updated with respect to all inputs. This requires synchronization of billions
of parameters across thousands of GPUs. We introduce a simple but effective
method to asynchronously train large, sparse language models on arbitrary text
corpora. Our method clusters a corpus into sets of related documents, trains a
separate expert language model on each cluster, and combines them in a sparse
ensemble for inference. This approach generalizes embarrassingly parallel
training by automatically discovering the domains for each expert, and
eliminates nearly all the communication overhead of existing sparse language
models. Our technique outperforms dense baselines on multiple corpora and
few-shot tasks, and our analysis shows that specializing experts to meaningful
clusters is key to these gains. Performance also improves with the number of
experts and size of training data, suggesting this is a highly efficient and
accessible approach to training large language models.
- Abstract(参考訳): 大規模言語モデルは一般的に密に訓練され、全てのパラメータは全ての入力に対して更新される。
これは数千のGPU間で数十億のパラメータの同期を必要とする。
任意のテキストコーパス上で,大小の言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合にクラスタリングし,各クラスタ上で個別の専門家言語モデルを学習し,それらを疎結合に組み合わせて推論を行う。
このアプローチは、各エキスパートのドメインを自動的に発見することで、恥ずかしい並列トレーニングを一般化し、既存のスパース言語モデルのほとんどすべての通信オーバーヘッドを取り除く。
分析の結果,有意義なクラスタに専門家を特化することが,これらの向上の鍵であることがわかった。
また、専門家の数やトレーニングデータのサイズによってパフォーマンスが向上し、これは大規模な言語モデルをトレーニングするための非常に効率的でアクセスしやすいアプローチであることを示唆している。
関連論文リスト
- Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models [12.424072830053445]
本研究では,非英語言語における目標課題に対するLLM(Large Language Models)の微調整の難しさに対処するモデルマージ手法を提案する。
我々は、英語の数学の命令データと対象言語の汎用的な命令データに「専門家」を微調整する。
我々は、数学の専門家の上位と下位のトランスフォーマー層を直接言語専門家の層に置き換え、それによって対象言語の数学性能が向上する。
論文 参考訳(メタデータ) (2024-10-02T08:53:07Z) - Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。
スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文 参考訳(メタデータ) (2024-09-30T20:49:54Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。