論文の概要: Improving Romanian LLM Pretraining Data using Diversity and Quality Filtering
- arxiv url: http://arxiv.org/abs/2511.01090v1
- Date: Sun, 02 Nov 2025 21:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.060778
- Title: Improving Romanian LLM Pretraining Data using Diversity and Quality Filtering
- Title(参考訳): 多様性と品質フィルタリングによるルーマニアのLLM事前学習データの改善
- Authors: Vlad Negoita, Mihai Masala, Traian Rebedea,
- Abstract要約: 大規模言語モデル(LLM)は最近人気を博し、多くのタスクにおいて人間の能力にマッチしたり、優れたりすることが多い。
LLMをトレーニングする上で重要な要素の1つは、高品質なデータの可用性とキュレーションである。
データ品質は、高品質なコーパスが不足している、表現不足の言語にとって特に重要である。
- 参考スコア(独自算出の注目度): 1.7705784090599055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently exploded in popularity, often matching or outperforming human abilities on many tasks. One of the key factors in training LLMs is the availability and curation of high-quality data. Data quality is especially crucial for under-represented languages, where high-quality corpora are scarce. In this work we study the characteristics and coverage of Romanian pretraining corpora and we examine how they differ from English data. By training a lightweight multitask model on carefully LLM-annotated Romanian texts, we are able to analyze and perform multi-level filtering (e.g., educational value, topic, format) to generate high-quality pretraining datasets. Our experiments show noteworthy trends in the topics present in Romanian and English data, while also proving the effectiveness of filtering data through improved LLM pretraining performance across multiple benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近人気を博し、多くのタスクにおいて人間の能力にマッチしたり、優れたりすることが多い。
LLMをトレーニングする上で重要な要素の1つは、高品質なデータの可用性とキュレーションである。
データ品質は、高品質なコーパスが不足している、表現不足の言語にとって特に重要である。
本研究では,ルーマニア語の事前学習コーパスの特徴とカバレッジについて検討し,それらが英語データとどのように異なるかを検討する。
LLM注釈付きルーマニア語のテキストに対して、軽量なマルチタスクモデルをトレーニングすることにより、マルチレベルフィルタリング(例えば、教育的価値、トピック、フォーマット)を分析して、高品質な事前学習データセットを生成することができる。
実験では,ルーマニア語と英語のデータに現れるトピックの傾向を示すとともに,LLMプレトレーニング性能の改善によるデータフィルタリングの有効性を示す。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - "Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions [40.64721381920061]
ルーマニア語用にカスタマイズされたオープンソースのLLMを収集、翻訳し、評価し、リリースするのはこれが初めてです。
我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。
論文 参考訳(メタデータ) (2024-06-26T11:39:51Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。