論文の概要: Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
- arxiv url: http://arxiv.org/abs/2503.00865v1
- Date: Sun, 02 Mar 2025 11:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:19.040635
- Title: Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
- Title(参考訳): Babel: グローバルスピーカーの90%以上を占めるオープンな多言語大言語モデル
- Authors: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang,
- Abstract要約: $texttBabel$はオープンな多言語LLMで、話者数のトップ25言語をカバーする。
世界の人口の90%以上をサポートし、他のオープンな多言語LLMによって無視される多くの言語を含んでいる。
- 参考スコア(独自算出の注目度): 80.69714909319842
- License:
- Abstract: Large language models (LLMs) have revolutionized natural language processing (NLP), yet open-source multilingual LLMs remain scarce, with existing models often limited in language coverage. Such models typically prioritize well-resourced languages, while widely spoken but under-resourced languages are often overlooked. To address this disparity, we introduce $\texttt{Babel}$, an open multilingual LLM that covers the top 25 languages by number of speakers, supports over 90% of the global population, and includes many languages neglected by other open multilingual LLMs. Unlike traditional continue pretraining approaches, Babel expands its parameter count through a layer extension technique that elevates Babel's performance ceiling. We introduce two variants: $\texttt{Babel-9B}$, designed for efficient inference and fine-tuning, and $\texttt{Babel-83B}$, which sets a new standard for open multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its superior performance compared to open LLMs of comparable size. In addition, using open-source supervised fine-tuning datasets, Babel achieves remarkable performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat setting a new standard for multilingual tasks, reaching the same level of commercial models.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらしたが、オープンソースの多言語 LLM は依然として乏しい。
このようなモデルは典型的には、十分なリソースを持つ言語を優先するが、広く話されているが、低リソースの言語はしばしば見過ごされる。
この格差に対処するため、オープンな多言語LLMである$\texttt{Babel}$を導入する。これは、上位25言語を話者数でカバーし、世界の人口の90%以上をサポートし、他のオープンな多言語LLMによって無視される多くの言語を含んでいる。
従来の継続事前トレーニングアプローチとは異なり、Babelは、Babelのパフォーマンス天井を高めるレイヤ拡張技術を通じて、パラメータ数を拡大している。
効率的な推論と微調整のために設計された $\texttt{Babel-9B}$ と、オープンな多言語 LLM のための新しい標準を設定する $\textt{Babel-83B}$ である。
多言語タスクの広範囲な評価は、オープンなLLMと比較すると、その性能が優れていることを示している。
さらに、オープンソースの教師付き微調整データセットを使用することで、Babel-9B-Chatは10BサイズのLLMでリードし、Babel-83B-Chatは多言語タスクの新しい標準を設定し、同じレベルの商用モデルに達した。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。