論文の概要: Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2502.12982v1
- Date: Tue, 18 Feb 2025 16:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:18.262400
- Title: Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs
- Title(参考訳): Sailor2:Sailling in South-East Asia with Inclusive Multilingual LLMs (英語)
- Authors: Longxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin,
- Abstract要約: Sailor2は、東南アジア(SEA)言語のための最先端の多言語言語モデルのファミリーであり、1B、8B、20Bサイズで利用可能である。
Sailor2は、中国語と英語の習熟を維持しながら、13のSEA言語をサポートするために500Bトークンを継続的に事前訓練している。
Sailor2-20Bモデルは、SEA言語間でGPT-4oに対して50-50の勝利率を達成する。
- 参考スコア(独自算出の注目度): 61.117234373024665
- License:
- Abstract: Sailor2 is a family of cutting-edge multilingual language models for South-East Asian (SEA) languages, available in 1B, 8B, and 20B sizes to suit diverse applications. Building on Qwen2.5, Sailor2 undergoes continuous pre-training on 500B tokens (400B SEA-specific and 100B replay tokens) to support 13 SEA languages while retaining proficiency in Chinese and English. Sailor2-20B model achieves a 50-50 win rate against GPT-4o across SEA languages. We also deliver a comprehensive cookbook on how to develop the multilingual model in an efficient manner, including five key aspects: data curation, pre-training, post-training, model customization and evaluation. We hope that Sailor2 model (Apache 2.0 license) will drive language development in the SEA region, and Sailor2 cookbook will inspire researchers to build more inclusive LLMs for other under-served languages.
- Abstract(参考訳): Sailor2は、東南アジア(SEA)言語のための最先端の多言語言語モデルのファミリーで、1B、8B、20Bサイズで、多様なアプリケーションに適合する。
Qwen2.5をベースとして、Saillor2は500Bトークン(400B SEA特化トークンと100Bリプレイトークン)の継続的な事前トレーニングを実施し、13のSEA言語をサポートしながら、中国語と英語の習熟性を維持している。
Sailor2-20Bモデルは、SEA言語間でGPT-4oに対して50-50の勝利率を達成する。
また,データキュレーション,事前学習,ポストトレーニング,モデルカスタマイズ,評価という5つの重要な側面を含む,多言語モデルの効率的な開発方法に関する包括的なクックブックも提供します。
Sailor2モデル(Apache 2.0ライセンス)がSEAリージョンでの言語開発を促進することを期待しています。
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Sailor: Open Language Models for South-East Asia [31.8422378772881]
Sailor(セイラー)は、東南アジア(SEA)言語向けに作られたオープン言語モデルである。
セイラーモデルは200Bから400Bのトークンを受け取り、主に英語、中国語、ベトナム語、タイ語、インドネシア語、マレー語、ラオス語をカバーしている。
論文 参考訳(メタデータ) (2024-04-04T17:31:32Z) - Teaching Large Language Models an Unseen Language on the Fly [32.83773919852362]
In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである DiPMT++ を紹介した。
辞書と5Kパラレル文のみを用いて、DiPMT++は中国語から中国語への翻訳において、0から16BLEUまでのGPT-4の性能を大幅に向上させる。
また、もう1つの目に見えない言語であるKalamang上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-29T13:50:47Z) - PALO: A Polyglot Large Multimodal Model for 5B People [23.839200109033538]
より包括的な視覚言語モデル(VLM)を追求するために,PALOと呼ばれる大規模マルチモーダルモデルを導入する。
PALOは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論機能を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:59:58Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。