論文の概要: Extending the Pre-Training of BLOOM for Improved Support of Traditional
Chinese: Models, Methods and Results
- arxiv url: http://arxiv.org/abs/2303.04715v1
- Date: Wed, 8 Mar 2023 16:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:09:37.150133
- Title: Extending the Pre-Training of BLOOM for Improved Support of Traditional
Chinese: Models, Methods and Results
- Title(参考訳): 伝統的な中国語サポートの改善のためのBLOOMの事前学習の拡張:モデル,方法,結果
- Authors: Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu,
Yin-Hsiang Liao, Chin-Tung Lin, Da-Shan Shiu, Wei-Yun Ma
- Abstract要約: BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。
BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。
BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
- 参考スコア(独自算出の注目度): 12.00277814051069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present the multilingual language model BLOOM-zh that
features enhanced support for Traditional Chinese. BLOOM-zh has its origins in
the open-source BLOOM models presented by BigScience in 2022. Starting from
released models, we extended the pre-training of BLOOM by additional 7.4
billion tokens in Traditional Chinese and English covering a variety of domains
such as news articles, books, encyclopedias, educational materials as well as
spoken language. In order to show the properties of BLOOM-zh, both existing and
newly created benchmark scenarios are used for evaluating the performance.
BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks
while maintaining its English capability. We release all our models to the
research community.
- Abstract(参考訳): 本稿では,従来の中国語のサポート強化を特徴とする多言語言語モデルBLOOM-zhを提案する。
BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。
発表モデルから,新聞記事,書籍,百科事典,教育資料,音声言語など,さまざまな領域をカバーし,従来の中国語や英語で74億トークンを追加することで,BLOOMの事前学習を拡大した。
BLOOM-zhの特性を示すために、既存のベンチマークシナリオと新しく作成されたベンチマークシナリオの両方を用いて性能を評価する。
BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れている。
すべてのモデルを研究コミュニティにリリースします。
関連論文リスト
- BBT-Fin: Comprehensive Construction of Chinese Financial Domain
Pre-trained Language Model, Corpus and Benchmark [12.457193087920183]
我々は、T5モデルに基づく新しい中国の金融事前学習言語モデルであるBBT-FinT5を紹介する。
BBT-FinCorpusは,4つのソースから約300GBの原文を出力する大規模財務コーパスである。
論文 参考訳(メタデータ) (2023-02-18T22:20:37Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [266.0212874544552]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z) - Learning to translate by learning to communicate [5.901351492243006]
我々は,最新のunsupervised NMTシステムを改善するために,事前訓練された多言語モデルを用いてEmergent Communication (EC)を使用する手法を定式化し,試験する。
筆者らはEC Fine-Tuningの2つの変種を提示し、そのうちの1つは6/8の翻訳設定でバックトランスレーションベースのベースラインを上回っている。
論文 参考訳(メタデータ) (2022-07-14T15:58:06Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。