論文の概要: Building High-Quality Datasets for Portuguese LLMs: From Common Crawl Snapshots to Industrial-Grade Corpora
- arxiv url: http://arxiv.org/abs/2509.08824v1
- Date: Wed, 10 Sep 2025 17:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.542384
- Title: Building High-Quality Datasets for Portuguese LLMs: From Common Crawl Snapshots to Industrial-Grade Corpora
- Title(参考訳): ポルトガルのLLMのための高品質データセットの構築:共通クロールスナップショットから産業用グラッドコーパスまで
- Authors: Thales Sales Almeida, Rodrigo Nogueira, Helio Pedrini,
- Abstract要約: 大規模言語モデル(LLM)のためのWebベースコーパス構築のためのスケーラブルな手法を探究する。
我々はポルトガルに新しい120Bトークンコーパスを構築し、工業グレードコーパスに競争結果をもたらす。
対象言語にモデルを適用することでパフォーマンスが向上し、高品質な言語固有のデータの重要性が強化されることを示す。
- 参考スコア(独自算出の注目度): 8.105169210920556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language models (LLMs) is deeply influenced by the quality and composition of their training data. While much of the existing work has centered on English, there remains a gap in understanding how to construct effective training corpora for other languages. We explore scalable methods for building web-based corpora for LLMs. We apply them to build a new 120B token corpus in Portuguese that achieves competitive results to an industrial-grade corpus. Using a continual pretraining setup, we study how different data selection and preprocessing strategies affect LLM performance when transitioning a model originally trained in English to another language. Our findings demonstrate the value of language-specific filtering pipelines, including classifiers for education, science, technology, engineering, and mathematics (STEM), as well as toxic content. We show that adapting a model to the target language leads to performance improvements, reinforcing the importance of high-quality, language-specific data. While our case study focuses on Portuguese, our methods are applicable to other languages, offering insights for multilingual LLM development.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は,学習データの品質や構成に大きく影響されている。
既存の作業の多くは英語を中心にしているが、他の言語に対する効果的なトレーニングコーパスを構築する方法を理解するには、依然としてギャップがある。
LLMのためのWebベースのコーパスを構築するためのスケーラブルな手法について検討する。
ポルトガルで120Bのトークン・コーパスを新たに構築し、工業グレードのコーパスに競争結果をもたらす。
連続的な事前学習設定を用いて、もともと英語で訓練されたモデルを他の言語に移行する際に、異なるデータ選択と事前処理戦略がLLMのパフォーマンスにどのように影響するかを検討する。
本研究は, 教育, 科学, 技術, 工学, 数学(STEM) の分類器や有毒な内容を含む, 言語固有のフィルタリングパイプラインの価値を示すものである。
対象言語にモデルを適用することでパフォーマンスが向上し、高品質な言語固有のデータの重要性が強化されることを示す。
ケーススタディはポルトガル語に焦点をあてるが,本手法は他の言語にも適用でき,多言語LLM開発のための洞察を提供する。
関連論文リスト
- Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models [28.716852515539497]
本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
論文 参考訳(メタデータ) (2024-09-03T03:42:56Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation [21.980770995466134]
言語間で整列したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。
この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。
論文 参考訳(メタデータ) (2024-02-18T07:24:34Z) - Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study [5.350495525141013]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて最先端のパフォーマンスを達成した。
RustやSwiftといった重要な言語は、公開コードに制限があるため、低リソースのままである。
対象とタスクに対して最適なソース言語を推定する性能予測モデルを構築した。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。