論文の概要: Sunflower: A New Approach To Expanding Coverage of African Languages in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.07203v1
- Date: Wed, 08 Oct 2025 16:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.632993
- Title: Sunflower: A New Approach To Expanding Coverage of African Languages in Large Language Models
- Title(参考訳): Sunflower: 大規模言語モデルにおけるアフリカの言語の範囲を広げる新しいアプローチ
- Authors: Benjamin Akera, Evelyn Nafula Ouma, Gilbert Yiga, Patrick Walukagga, Phionah Natukunda, Trevor Saaka, Solomon Nsumba, Lilian Teddy Nabukeera, Joel Muhanguzi, Imran Sekalala, Nimpamya Janat Namara, Engineer Bainomugisha, Ernest Mwebaze, John Quinn,
- Abstract要約: アフリカには2000以上の言語があり、その多くは言語技術の進歩によってバイパスされている。
現在の先進的なLLMは、多くの一般的な言語で強力なパフォーマンスを示しているが、最も多く話者を持つ言語を優先的にサポートしている。
地域に焦点を当てたアプローチの方が効率的であり,ウガンダのケーススタディを提示する。
- 参考スコア(独自算出の注目度): 1.6095610725007592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are more than 2000 living languages in Africa, most of which have been bypassed by advances in language technology. Current leading LLMs exhibit strong performance on a number of the most common languages (e.g. Swahili or Yoruba), but prioritise support for the languages with the most speakers first, resulting in piecemeal ability across disparate languages. We contend that a regionally focussed approach is more efficient, and present a case study for Uganda, a country with high linguistic diversity. We describe the development of Sunflower 14B and 32B, a pair of models based on Qwen 3 with state of the art comprehension in the majority of all Ugandan languages. These models are open source and can be used to reduce language barriers in a number of important practical applications.
- Abstract(参考訳): アフリカには2000以上の言語があり、その多くは言語技術の進歩によってバイパスされている。
現在のLLMは、最も一般的な言語(例えば、スワヒリ語やヨルバ語)で強いパフォーマンスを示していますが、最も多く話者を持つ言語を優先的にサポートすることで、異なる言語にまたがる断片的な能力をもたらします。
地域に焦点を当てたアプローチの方が効率的であり,言語多様性の高い国であるウガンダを事例として論じる。
本研究では,Qwen 3をベースとしたモデルであるSunflower 14Bと32Bの開発について述べる。
これらのモデルはオープンソースであり、多くの重要な実用アプリケーションにおいて言語障壁を減らすために使用することができる。
関連論文リスト
- FormosanBench: Benchmarking Low-Resource Austronesian Languages in the Era of Large Language Models [1.2403152094314245]
我々は,低リソースオーストロネシア言語上での大規模言語モデル(LLM)を評価するための最初のベンチマークであるFORMOSANBENCHを紹介する。
FORMOSANBENCHを用いて,ゼロショット,10ショット,微調整設定におけるモデル性能を評価する。
この結果から,高リソース言語とFormosan言語の間には,大幅な性能差が認められた。
論文 参考訳(メタデータ) (2025-06-12T07:02:28Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。