論文の概要: Mangosteen: An Open Thai Corpus for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2507.14664v2
- Date: Tue, 22 Jul 2025 14:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 13:10:14.745172
- Title: Mangosteen: An Open Thai Corpus for Language Model Pretraining
- Title(参考訳): Mangosteen: 言語モデル事前トレーニングのためのオープンタイ語コーパス
- Authors: Wannaphong Phatthiyaphaibun, Can Udomcharoenchaikit, Pakpoom Singkorapoom, Kunat Pipatanakul, Ekapol Chuangsuwanich, Peerat Limkonchotiwat, Sarana Nutanong,
- Abstract要約: 既存の大規模コーパスは英語や言語に依存しないパイプラインに依存している。
Mangosteen: タイのDolmaパイプラインを通じて構築された47億のタイ語対応コーパスを紹介します。
パイプライントリムを202万から2500万のドキュメントにまとめた上で,SEA-HELM NLGを3から11に引き上げた。
- 参考スコア(独自算出の注目度): 11.72916837632856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training data shapes a language model's quality, but raw web text is noisy and demands careful cleaning. Existing large-scale corpora rely on English-centric or language-agnostic pipelines whose heuristics do not capture Thai script or cultural nuances, leaving risky material such as gambling content untreated. Prior Thai-specific efforts customize pipelines or build new ones, yet seldom release their data or document design choices, hindering reproducibility and raising the question of how to construct a transparent, high-quality Thai corpus. We introduce Mangosteen: a 47 billion-token Thai corpus built through a Thai-adapted Dolma pipeline that includes custom rule-based language ID, revised C4/Gopher quality filters, and Thai-trained content filters, plus curated non-web sources such as Wikipedia, Royal Gazette texts, OCR-extracted books, and CC-licensed YouTube subtitles. Systematic ablations using GPT-2 show the pipeline trims CommonCrawl from 202M to 25M documents while raising SEA-HELM NLG from 3 to 11; an 8B-parameter SEA-LION model continually pre-trained on Mangosteen then surpasses SEA-LION-v3 and Llama-3.1 by about four points on Thai benchmarks. We release the full pipeline code, cleaning manifests, corpus snapshot, and all checkpoints, providing a fully reproducible foundation for future Thai and regional LLM research.
- Abstract(参考訳): 事前学習データは言語モデルの質を形作るが、生のWebテキストは騒々しく、慎重にクリーニングする必要がある。
既存の大規模なコーパスは英語や言語に依存しないパイプラインに依存しており、そのヒューリスティクスはタイ語のスクリプトや文化的なニュアンスを捉えておらず、ギャンブルコンテンツのような危険な素材を未処理のまま残している。
以前はタイ固有の取り組みでパイプラインをカスタマイズしたり、新しいものを作ったりしていたが、データやドキュメントの設計選択をほとんどリリースせず、再現性を妨げ、透明で高品質なタイのコーパスを構築する方法について疑問を投げかけていた。
Mangosteenは、タイ語対応のDolmaパイプラインを通じて構築された47億のタイ語コーパスで、カスタムルールベースの言語ID、修正されたC4/Gopher品質フィルタ、タイ語で訓練されたコンテンツフィルタ、さらにウィキペディア、ロイヤルガゼットテキスト、OCR抽出書籍、CCライセンスのYouTube字幕などの非ウェブソースをキュレーションした。
GPT-2を用いた体系的な改善は、SEA-HELM NLGを3から11に引き上げながら、202Mから25Mまでのパイプライントロールを示し、マンゴスティーンで継続的に事前訓練された8BパラメータSEA-LIONモデルは、タイのベンチマークで約4ポイントのSEA-LION-v3とLlama-3.1を上回った。
完全なパイプラインコード、クリーニングマニフェスト、コーパススナップショット、すべてのチェックポイントをリリースし、将来のタイおよび地域LSM研究のための完全な再現可能な基盤を提供します。
関連論文リスト
- Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Chinese Open Instruction Generalist: A Preliminary Release [33.81265396916227]
本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。
我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。
既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。
論文 参考訳(メタデータ) (2023-04-17T04:45:06Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。