論文の概要: Xmodel-1.5: An 1B-scale Multilingual LLM
- arxiv url: http://arxiv.org/abs/2411.10083v3
- Date: Wed, 04 Dec 2024 11:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:16.336802
- Title: Xmodel-1.5: An 1B-scale Multilingual LLM
- Title(参考訳): Xmodel-1.5: 1Bスケール多言語LLM
- Authors: Wang Qun, Liu Yang, Lin Qingquan, Jiang Ling,
- Abstract要約: 2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。
Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
- 参考スコア(独自算出の注目度): 4.298869484709548
- License:
- Abstract: We introduce Xmodel-1.5, a 1-billion-parameter multilingual large language model pretrained on 2 trillion tokens, designed for balanced performance and scalability. Unlike most large models that use the BPE tokenizer, Xmodel-1.5 employs a custom unigram tokenizer with 65,280 tokens, optimizing both efficiency and accuracy. The model delivers competitive results across multiple languages, including Thai, Arabic, French, Chinese, and English, outperforming Alibaba's PolyLM-1.7B on respective evaluation datasets. Xmodel-1.5 excels in benchmarks like mMMLU and PIQA, and achieves state-of-the-art results in Thai. To support low-resource language research, we release Xdata_Thai, a Thai-specific evaluation dataset featuring unique linguistic challenges such as gendered particles and idioms. While the model demonstrates strong performance, there is still room for improvement in handling culturally specific nuances. We hope this work contributes to advancements in multilingual AI research. Models and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelLM-1.5
- Abstract(参考訳): Xmodel-1.5は2兆トークンで事前訓練された1億パラメータの多言語大言語モデルで、性能とスケーラビリティのバランスよく設計されている。
BPEトークンライザを使用するほとんどの大型モデルとは異なり、Xmodel-1.5は65,280トークンのカスタムユニグラムトークンライザを使用しており、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語を含む複数の言語で競合的な結果をもたらし、それぞれの評価データセットでAlibabaのPolyLM-1.7Bを上回っている。
Xmodel-1.5 は mMMLU や PIQA のようなベンチマークに優れ、タイにおける最先端の結果を達成している。
低リソース言語研究を支援するため、タイ固有の評価データセットであるXdata_Thaiをリリースする。
モデルは高いパフォーマンスを示すが、文化的に特定のニュアンスを扱うための改善の余地はまだ残っている。
この研究が多言語AI研究の進歩に寄与することを願っている。
モデルとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelLM-1.5で公開されている。
関連論文リスト
- Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。
大きさは小さいものの、見事な性能を誇っている。
論文 参考訳(メタデータ) (2024-06-05T02:12:06Z) - Sailor: Open Language Models for South-East Asia [31.8422378772881]
Sailor(セイラー)は、東南アジア(SEA)言語向けに作られたオープン言語モデルである。
セイラーモデルは200Bから400Bのトークンを受け取り、主に英語、中国語、ベトナム語、タイ語、インドネシア語、マレー語、ラオス語をカバーしている。
論文 参考訳(メタデータ) (2024-04-04T17:31:32Z) - PALO: A Polyglot Large Multimodal Model for 5B People [23.839200109033538]
より包括的な視覚言語モデル(VLM)を追求するために,PALOと呼ばれる大規模マルチモーダルモデルを導入する。
PALOは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論機能を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:59:58Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。