Fugu-MT 論文翻訳(概要): MADLAD-400: A Multilingual And Document-Level Large Audited Dataset

論文の概要: MADLAD-400: A Multilingual And Document-Level Large Audited Dataset

arxiv url: http://arxiv.org/abs/2309.04662v1
Date: Sat, 9 Sep 2023 02:34:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 17:07:05.144322
Title: MADLAD-400: A Multilingual And Document-Level Large Audited Dataset
Title（参考訳）: MADLAD-400:多言語および文書レベルの大規模監査データセット
Authors: Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat
Abstract要約: 我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
参考スコア（独自算出の注目度）: 66.12330208082442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce MADLAD-400, a manually audited, general domain 3T token monolingual dataset based on CommonCrawl, spanning 419 languages. We discuss the limitations revealed by self-auditing MADLAD-400, and the role data auditing had in the dataset creation process. We then train and release a 10.7B-parameter multilingual machine translation model on 250 billion tokens covering over 450 languages using publicly available data, and find that it is competitive with models that are significantly larger, and report the results on different domains. In addition, we train a 8B-parameter language model, and assess the results on few-shot translation. We make the baseline models available to the research community.
Abstract（参考訳）: 419言語にまたがるCommonCrawlに基づく,手動で監査された汎用ドメイン3Tトークン単言語データセットMADLAD-400を紹介する。我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。次に、公開データを用いて450以上の言語をカバーする250億のトークン上に10.7Bのパラメトリック機械翻訳モデルをトレーニングし、リリースし、より大きなモデルと競合し、異なるドメインで結果を報告する。さらに,8Bパラメータ言語モデルを訓練し,その結果を数発の翻訳で評価する。私たちはベースラインモデルを研究コミュニティに公開しています。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data [11.636375417636904]
Llama3モデルのLlama3系列を500言語に大々的に多言語化するためのバイリンガル翻訳データの影響について検討した。我々は2500以上の言語対のデータを含むMALAバイリンガル翻訳コーパスを構築した。我々は4つの大規模多言語モデルからなるEMMA-500 Llama 3スイートを開発した。
論文参考訳（メタデータ） (2025-05-31T08:37:17Z)
An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [22.407513686528755]
高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
論文参考訳（メタデータ） (2025-03-13T11:24:09Z)
Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文参考訳（メタデータ） (2024-10-31T14:09:50Z)
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文参考訳（メタデータ） (2024-09-26T14:40:45Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文参考訳（メタデータ） (2023-05-23T14:48:42Z)
Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。 In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文参考訳（メタデータ） (2022-10-24T11:41:20Z)
Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文参考訳（メタデータ） (2022-10-13T19:34:14Z)
Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文参考訳（メタデータ） (2022-05-09T00:24:13Z)
X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文参考訳（メタデータ） (2021-06-17T05:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。