論文の概要: OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data
- arxiv url: http://arxiv.org/abs/2602.02266v1
- Date: Mon, 02 Feb 2026 16:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.280025
- Title: OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data
- Title(参考訳): OpenSeal: 並列データによるオープンソース東南アジア LLM の構築
- Authors: Tan Sang Nguyen, Muhammad Reza Qorib, Hwee Tou Ng,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)アプリケーションに有効なツールであることが証明されている。
OpenSealは、同様のサイズの既存のモデルのパフォーマンスに匹敵する、最初の真にオープンな東南アジアのLLMである。
- 参考スコア(独自算出の注目度): 33.999669691407696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have proven to be effective tools for a wide range of natural language processing (NLP) applications. Although many LLMs are multilingual, most remain English-centric and perform poorly on low-resource languages. Recently, several Southeast Asia-focused LLMs have been developed, but none are truly open source, as they do not publicly disclose their training data. Truly open-source models are important for transparency and for enabling a deeper and more precise understanding of LLM internals and development, including biases, generalization, and multilinguality. Motivated by recent advances demonstrating the effectiveness of parallel data in improving multilingual performance, we conduct controlled and comprehensive experiments to study the effectiveness of parallel data in continual pretraining of LLMs. Our findings show that using only parallel data is the most effective way to extend an LLM to new languages. Using just 34.7B tokens of parallel data and 180 hours on 8x NVIDIA H200 GPUs, we built OpenSeal, the first truly open Southeast Asian LLM that rivals the performance of existing models of similar size.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)アプリケーションに有効なツールであることが証明されている。
LLMの多くは多言語であるが、多くは英語中心であり、低リソース言語では性能が劣る。
近年,東南アジアを中心にいくつかのLSMが開発されているが,トレーニングデータを公開していないため,オープンソースではない。
真にオープンソースのモデルは透明性のために重要であり、バイアス、一般化、多言語性を含むLLMの内部と開発をより深く、より正確な理解を可能にする。
マルチリンガル性能向上における並列データの有効性を実証する最近の進歩により, LLMの連続事前学習における並列データの有効性について, 制御および総合的な実験を行った。
LLMを新しい言語に拡張する最も効果的な方法として,並列データのみを用いることが示唆された。
並列データの34.7Bトークンと8x NVIDIA H200 GPU上で180時間しか使用せず、私たちはOpenSealを開発した。
関連論文リスト
- Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources [5.341994281991984]
本稿では, 既存の英語 LLM を低予算シナリオで韓国語に適応させる手法を提案する。
韓国のデータセットを収集し、データを前処理し、モデルをトレーニングし、下流のベンチマークを作成し、評価を行う。
我々の新しいバイリンガルモデルであるThunder-LLMとThunder-LLM-Insは、最小限のデータと計算資源を生かしながら、最先端モデルと比較して韓国の優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-18T17:33:51Z) - Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。
近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。
多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文 参考訳(メタデータ) (2025-06-16T02:21:15Z) - Leveraging Open-Source Large Language Models for Native Language Identification [1.6267479602370543]
ネイティブ言語識別(NLI)は、法医学、マーケティング、第二言語習得に応用されている。
本研究では,オープンソース生成型大規模言語モデル(LLM)をNLIに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-15T08:14:18Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。