論文の概要: SEA-LION: Southeast Asian Languages in One Network
- arxiv url: http://arxiv.org/abs/2504.05747v1
- Date: Tue, 08 Apr 2025 07:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:25.495374
- Title: SEA-LION: Southeast Asian Languages in One Network
- Title(参考訳): SEA-LION: 1つのネットワークにおける東南アジアの言語
- Authors: Raymond Ng, Thanh Ngan Nguyen, Yuli Huang, Ngee Chia Tai, Wai Yi Leong, Wei Qi Leong, Xianbin Yong, Jian Gang Ngui, Yosephine Susanto, Nicholas Cheng, Hamsawardhini Rengarajan, Peerat Limkonchotiwat, Adithya Venkatadri Hulagadri, Kok Wai Teng, Yeo Yeow Tong, Bryan Siow, Wei Yi Teo, Wayne Lau, Choon Meng Tan, Brandon Ong, Zhi Hao Ong, Jann Railey Montalan, Adwin Chan, Sajeban Antonyrex, Ren Lee, Esther Choa, David Ong Tat-Wee, Bing Jie Darius Liu, William Chandra Tjhi, Erik Cambria, Leslie Teo,
- Abstract要約: 本稿では,Llama-SEA-LION-v3-8B-ITとGemma-SEA-LION-v3-9B-ITを紹介する。
LLMのSEA-LIONファミリーは、英語、中国語、インドネシア語、ベトナム語、マレー語、タイ語、ビルマ語、ラオス語、フィリピン語、タミル語、クメール語を含む11のSEA言語をサポートしている。
- 参考スコア(独自算出の注目度): 16.12423506306059
- License:
- Abstract: Recently, Large Language Models (LLMs) have dominated much of the artificial intelligence scene with their ability to process and generate natural languages. However, the majority of LLM research and development remains English-centric, leaving low-resource languages such as those in the Southeast Asian (SEA) region under-represented. To address this representation gap, we introduce Llama-SEA-LION-v3-8B-IT and Gemma-SEA-LION-v3-9B-IT, two cutting-edge multilingual LLMs designed for SEA languages. The SEA-LION family of LLMs supports 11 SEA languages, namely English, Chinese, Indonesian, Vietnamese, Malay, Thai, Burmese, Lao, Filipino, Tamil, and Khmer. Our work leverages large-scale multilingual continued pre-training with a comprehensive post-training regime involving multiple stages of instruction fine-tuning, alignment, and model merging. Evaluation results on multilingual benchmarks indicate that our models achieve state-of-the-art performance across LLMs supporting SEA languages. We open-source the models to benefit the wider SEA community.
- Abstract(参考訳): 近年、Large Language Models (LLM) は、自然言語の処理と生成能力によって、人工知能のシーンの大部分を支配している。
しかし、LLMの研究・開発の大部分は英語中心であり、東南アジア(SEA)地域のような低資源言語は少数派である。
本稿では,Llama-SEA-LION-v3-8B-ITとGemma-SEA-LION-v3-9B-ITを導入する。
LLMのSEA-LIONファミリーは、英語、中国語、インドネシア語、ベトナム語、マレー語、タイ語、ビルマ語、ラオス語、フィリピン語、タミル語、クメール語を含む11のSEA言語をサポートしている。
本研究は,複数段階の命令微調整,アライメント,モデルマージを含む,大規模多言語継続事前学習を活用する。
多言語ベンチマークによる評価結果から,SEA 言語をサポートする LLM 間での最先端性能が得られたことが示唆された。
より広いSEAコミュニティに利益をもたらすために、モデルをオープンソースにしています。
関連論文リスト
- SEA-HELM: Southeast Asian Holistic Evaluation of Language Models [2.119348427296952]
SEA-HELMは、東南アジア(SEA)地域の言語に対する包括的で信頼性の高い評価スイートである。
1)NLPクラシック、(2)LDM特化、(3)SEA言語学、(4)SEA文化、(5)安全の5つの中核柱から構成される。
SEA-HELMは現在、フィリピン、インドネシア、タミル、タイ、ベトナムをサポートしている。
論文 参考訳(メタデータ) (2025-02-20T06:32:45Z) - Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs [61.117234373024665]
Sailor2は、東南アジア(SEA)言語のための最先端の多言語言語モデルのファミリーであり、1B、8B、20Bサイズで利用可能である。
Sailor2は、中国語と英語の習熟を維持しながら、13のSEA言語をサポートするために500Bトークンを継続的に事前訓練している。
Sailor2-20Bモデルは、SEA言語間でGPT-4oに対して50-50の勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-18T16:04:57Z) - MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement [45.69955325679514]
Marco-LLM:多言語多言語学習による多言語化
我々は、複数の低リソース言語に対して、かなりの量の多言語データを収集した。
Marco-LLMは最先端のLLMよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-05T09:26:58Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。