論文の概要: WeLM: A Well-Read Pre-trained Language Model for Chinese
- arxiv url: http://arxiv.org/abs/2209.10372v2
- Date: Thu, 22 Sep 2022 02:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:24:50.690467
- Title: WeLM: A Well-Read Pre-trained Language Model for Chinese
- Title(参考訳): WeLM: 中国語の読みやすい事前学習型言語モデル
- Authors: Hui Su, Xiao Zhou, Houjing Yu, Yuwen Chen, Zilin Zhu, Yang Yu, Jie
Zhou
- Abstract要約: WeLM: 中国語のためのよく読まれる事前学習型言語モデルを提案する。
WeLMには様々なドメインや言語に関する幅広い知識が備わっていることを示す。
- 参考スコア(独自算出の注目度): 35.25574286385878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models pre-trained with self-supervised learning have
demonstrated impressive zero-shot generalization capabilities on a wide
spectrum of tasks. In this work, we present WeLM: a well-read pre-trained
language model for Chinese that is able to seamlessly perform different types
of tasks with zero or few-shot demonstrations. WeLM is trained with 10B
parameters by "reading" a curated high-quality corpus covering a wide range of
topics. We show that WeLM is equipped with broad knowledge on various domains
and languages. On 18 monolingual (Chinese) tasks, WeLM can significantly
outperform existing pre-trained models with similar sizes and match the
performance of models up to 25 times larger. WeLM also exhibits strong
capabilities in multi-lingual and code-switching understanding, outperforming
existing multilingual language models pre-trained on 30 languages. Furthermore,
We collected human-written prompts for a large set of supervised datasets in
Chinese and fine-tuned WeLM with multi-prompted training. The resulting model
can attain strong generalization on unseen types of tasks and outperform the
unsupervised WeLM in zero-shot learning. Finally, we demonstrate that WeLM has
basic skills at explaining and calibrating the decisions from itself, which can
be promising directions for future research. Our models can be applied from
https://welm.weixin.qq.com/docs/api/.
- Abstract(参考訳): 自己教師付き学習で事前学習された大規模言語モデルは、幅広いタスクで印象的なゼロショット一般化能力を示している。
本稿では,ゼロショットや少数ショットのデモンストレーションによって,さまざまなタスクをシームレスに実行できる中国語用事前学習型言語モデルwelmを提案する。
WeLMは、幅広いトピックをカバーする高品質なコーパスを「読む」ことで、10Bパラメータで訓練されている。
WeLMには様々なドメインや言語に関する幅広い知識が備わっている。
18の単言語(中国語)タスクでは、WeLMは既存のトレーニング済みモデルと同じようなサイズで大幅に性能を上回り、最大25倍の性能を持つ。
WeLMはまた、30言語で事前訓練された既存の多言語言語モデルよりも優れた、多言語およびコードスイッチング理解において強力な能力を示している。
さらに,マルチプロンプトトレーニングによる中国語と微調整 welm の教師付きデータセット群に対して,人間によるプロンプトを収集した。
得られたモデルは、目に見えないタスクの種類を強く一般化し、ゼロショット学習において教師なしの WeLM よりも優れる。
最後に, WeLMは意思決定を自己から説明し, 調整する基本的なスキルを持っていることを実証し, 今後の研究に期待できる方向を示す。
私たちのモデルはhttps://welm.weixin.qq.com/docs/api/から適用できます。
関連論文リスト
- Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。
英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。
能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:33:16Z) - Multilingual Large Language Models and Curse of Multilinguality [4.096453902709292]
大規模言語モデル(LLM)は自然言語処理(NLP)の研究者や実践者の間で広く普及している。
本稿では,多言語LLMの展望を概観し,その技術的側面について概観する。
基礎となるアーキテクチャ、客観的関数、事前トレーニングされたデータソース、トークン化メソッドを説明します。
論文 参考訳(メタデータ) (2024-06-15T11:31:39Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。