論文の概要: Improving Romanian LLM Pretraining Data using Diversity and Quality Filtering
- arxiv url: http://arxiv.org/abs/2511.01090v1
- Date: Sun, 02 Nov 2025 21:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.060778
- Title: Improving Romanian LLM Pretraining Data using Diversity and Quality Filtering
- Title(参考訳): 多様性と品質フィルタリングによるルーマニアのLLM事前学習データの改善
- Authors: Vlad Negoita, Mihai Masala, Traian Rebedea,
- Abstract要約: 大規模言語モデル(LLM)は最近人気を博し、多くのタスクにおいて人間の能力にマッチしたり、優れたりすることが多い。
LLMをトレーニングする上で重要な要素の1つは、高品質なデータの可用性とキュレーションである。
データ品質は、高品質なコーパスが不足している、表現不足の言語にとって特に重要である。
- 参考スコア(独自算出の注目度): 1.7705784090599055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently exploded in popularity, often matching or outperforming human abilities on many tasks. One of the key factors in training LLMs is the availability and curation of high-quality data. Data quality is especially crucial for under-represented languages, where high-quality corpora are scarce. In this work we study the characteristics and coverage of Romanian pretraining corpora and we examine how they differ from English data. By training a lightweight multitask model on carefully LLM-annotated Romanian texts, we are able to analyze and perform multi-level filtering (e.g., educational value, topic, format) to generate high-quality pretraining datasets. Our experiments show noteworthy trends in the topics present in Romanian and English data, while also proving the effectiveness of filtering data through improved LLM pretraining performance across multiple benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近人気を博し、多くのタスクにおいて人間の能力にマッチしたり、優れたりすることが多い。
LLMをトレーニングする上で重要な要素の1つは、高品質なデータの可用性とキュレーションである。
データ品質は、高品質なコーパスが不足している、表現不足の言語にとって特に重要である。
本研究では,ルーマニア語の事前学習コーパスの特徴とカバレッジについて検討し,それらが英語データとどのように異なるかを検討する。
LLM注釈付きルーマニア語のテキストに対して、軽量なマルチタスクモデルをトレーニングすることにより、マルチレベルフィルタリング(例えば、教育的価値、トピック、フォーマット)を分析して、高品質な事前学習データセットを生成することができる。
実験では,ルーマニア語と英語のデータに現れるトピックの傾向を示すとともに,LLMプレトレーニング性能の改善によるデータフィルタリングの有効性を示す。
関連論文リスト
- Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework [38.98519875112922]
視覚言語モデル(VLM)は英語中心のデータに基づいて訓練され、他の言語や文化的な文脈での性能を制限する。
我々は、LLaVA-Next方法論を再現し、適応し、ポーランドのVLMのセットを作成します。
我々は,LLaVA-1.6-una-13Bをポーランド適応MMBenchで+9.5%改善し,高い品質の字幕を生成評価に用いた。
論文 参考訳(メタデータ) (2026-02-15T09:54:40Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - "Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions [40.64721381920061]
ルーマニア語用にカスタマイズされたオープンソースのLLMを収集、翻訳し、評価し、リリースするのはこれが初めてです。
我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。
論文 参考訳(メタデータ) (2024-06-26T11:39:51Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。