論文の概要: Extending the Pre-Training of BLOOM for Improved Support of Traditional
Chinese: Models, Methods and Results
- arxiv url: http://arxiv.org/abs/2303.04715v2
- Date: Fri, 23 Jun 2023 14:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:57:22.150757
- Title: Extending the Pre-Training of BLOOM for Improved Support of Traditional
Chinese: Models, Methods and Results
- Title(参考訳): 伝統的な中国語サポートの改善のためのBLOOMの事前学習の拡張:モデル,方法,結果
- Authors: Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu,
Yin-Hsiang Liao, Chin-Tung Lin, Da-Shan Shiu, Wei-Yun Ma
- Abstract要約: BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。
BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。
BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
- 参考スコア(独自算出の注目度): 12.00277814051069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present the multilingual language model BLOOM-zh that
features enhanced support for Traditional Chinese. BLOOM-zh has its origins in
the open-source BLOOM models presented by BigScience in 2022. Starting from
released models, we extended the pre-training of BLOOM by additional 7.4
billion tokens in Traditional Chinese and English covering a variety of domains
such as news articles, books, encyclopedias, educational materials as well as
spoken language. In order to show the properties of BLOOM-zh, both existing and
newly created benchmark scenarios are used for evaluating the performance.
BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks
while maintaining its English capability. We release all our models to the
research community.
- Abstract(参考訳): 本稿では,従来の中国語のサポート強化を特徴とする多言語言語モデルBLOOM-zhを提案する。
BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。
発表モデルから,新聞記事,書籍,百科事典,教育資料,音声言語など,さまざまな領域をカバーし,従来の中国語や英語で74億トークンを追加することで,BLOOMの事前学習を拡大した。
BLOOM-zhの特性を示すために、既存のベンチマークシナリオと新しく作成されたベンチマークシナリオの両方を用いて性能を評価する。
BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れている。
すべてのモデルを研究コミュニティにリリースします。
関連論文リスト
- Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Bailong: Bilingual Transfer Learning based on QLoRA and Zip-tie Embedding [0.0]
大規模言語モデル (LLM) は様々なNLPアプリケーションにおいて例外的な性能を示した。
オープンソースのLLMの大部分は、主に英語のデータと他言語のほとんどに基づいて事前訓練されている。
マルチターン対話シナリオに最適化されたBailong 7Bの微調整バージョンであるBailongを提案する。
論文 参考訳(メタデータ) (2024-04-01T02:04:44Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment
in Central Philippine Languages [8.64545246732563]
我々は,フィリピンの低資源言語における可読性評価のためのコーパスとベースラインモデルの拡張を目的としたイニシアチブの一環として,BasahaCorpusを導入・リリースする。
私たちは、Hiligaynon、Minasbate、Karay-a、Rinconadaで書かれた短編物語のコーパスをまとめました。
本稿では,家系木に言語を配置し,利用可能なトレーニングデータの量を増やす階層型言語間モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T21:05:20Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。