Fugu-MT 論文翻訳(概要): Fineweb-Edu-Ar: Machine-translated Corpus to Support Arabic Small Language Models

論文の概要: Fineweb-Edu-Ar: Machine-translated Corpus to Support Arabic Small Language Models

arxiv url: http://arxiv.org/abs/2411.06402v1
Date: Sun, 10 Nov 2024 09:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.197501
Title: Fineweb-Edu-Ar: Machine-translated Corpus to Support Arabic Small Language Models
Title（参考訳）: Fineweb-Edu-Ar: アラビア小言語モデルをサポートする機械翻訳コーパス
Authors: Sultan Alrashed, Dmitrii Khizbullin, David R. Pugh,
Abstract要約: 本稿では,HuggingFaceから人気のFineWeb-Eduデータセットの機械翻訳版であるFineWeb-Edu-Arを紹介する。われわれの知る限りでは、FineWeb-Edu-Arは、アラビア語でトレーニングされたトークンの202Bのトークンを持つ、最も広く公開されている機械翻訳アラビア語データセットである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: As large language models (LLMs) grow and develop, so do their data demands. This is especially true for multilingual LLMs, where the scarcity of high-quality and readily available data online has led to a multitude of synthetic dataset generation approaches. A key technique in this space is machine translation (MT), where high-quality English text is adapted to a target, comparatively low-resource language. This report introduces FineWeb-Edu-Ar, a machine-translated version of the exceedingly popular (deduplicated) FineWeb-Edu dataset from HuggingFace. To the best of our knowledge, FineWeb-Edu-Ar is the largest publicly available machine-translated Arabic dataset out there, with its size of 202B tokens of an Arabic-trained tokenizer.
Abstract（参考訳）: 大きな言語モデル(LLM)が成長し、発展するにつれて、データ要求も増加します。これは、高品質で手軽に利用できるデータの不足が、多くの合成データセット生成アプローチに繋がった多言語LLMにとって特に当てはまります。この分野で重要な技術は機械翻訳(MT)であり、高品質な英語のテキストが比較的低リソースの言語に適応する。本稿では,HuggingFaceのFineWeb-Eduデータセットの機械翻訳版であるFineWeb-Edu-Arを紹介する。われわれの知る限りでは、FineWeb-Edu-Arは、アラビア語でトレーニングされたトークンの202Bのトークンを持つ、最も広く公開されている機械翻訳アラビア語データセットである。

関連論文リスト

Multilingual Language Model Pretraining using Machine-translated Data [33.373858866989536]
高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。 TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-18T19:27:53Z)
Multilingual Attribute Extraction from News Web Pages [44.99833362998488]
本稿では,複数の言語にまたがるニュース記事ページから属性を自動的に抽出するという課題に対処する。我々は6言語(英語、ドイツ語、ロシア語、中国語、韓国語、アラビア語)にわたる3,172のマークアップニュースページからなる多言語データセットを作成した。学習済みの最先端モデルであるMarkupLMを微調整し、これらのページからニュース属性を抽出し、ページを英語に翻訳することが抽出品質に与える影響を評価した。
論文参考訳（メタデータ） (2025-02-04T09:43:40Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文参考訳（メタデータ） (2024-11-07T13:33:34Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-22T05:35:17Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
A New Massive Multilingual Dataset for High-Performance Language Technologies [14.375854322321997]
HPLT言語リソースは、モノリンガルとバイリンガルのコーパスを含む、新しい大規模多言語データセットである。我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計5.6兆のワードトークンがドキュメントレベルで重複している。私たちの英語中心のパラレルコーパスは、単言語対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。
論文参考訳（メタデータ） (2024-03-20T22:14:39Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。 RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文参考訳（メタデータ） (2023-06-01T20:03:56Z)
The Effect of Normalization for Bi-directional Amharic-English Neural Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文参考訳（メタデータ） (2022-10-27T07:18:53Z)
HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文参考訳（メタデータ） (2020-06-09T02:08:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。