Fugu-MT 論文翻訳(概要): The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

論文の概要: The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

arxiv url: http://arxiv.org/abs/2303.03915v1
Date: Tue, 7 Mar 2023 14:25:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 15:14:44.985442
Title: The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset
Title（参考訳）: BigScience ROOTS Corpus: 1.6TB複合多言語データセット
Authors: Hugo Lauren\c{c}on, Lucile Saulnier, Thomas Wang, Christopher Akiki, Albert Villanova del Moral, Teven Le Scao, Leandro Von Werra, Chenghao Mou, Eduardo Gonz\'alez Ponferrada, Huu Nguyen, J\"org Frohberg, Mario \v{S}a\v{s}ko, Quentin Lhoest, Angelina McMillan-Major, Gerard Dupont, Stella Biderman, Anna Rogers, Loubna Ben allal, Francesco De Toni, Giada Pistilli, Olivier Nguyen, Somaieh Nikpoor, Maraim Masoud, Pierre Colombo, Javier de la Rosa, Paulo Villegas, Tristan Thrush, Shayne Longpre, Sebastian Nagel, Leon Weber, Manuel Mu\~noz, Jian Zhu, Daniel Van Strien, Zaid Alyafeai, Khalid Almubarak, Minh Chien Vu, Itziar Gonzalez-Dios, Aitor Soroa, Kyle Lo, Manan Dey, Pedro Ortiz Suarez, Aaron Gokaslan, Shamik Bose, David Adelani, Long Phan, Hieu Tran, Ian Yu, Suhas Pai, Jenny Chim, Violette Lepercq, Suzana Ilic, Margaret Mitchell, Sasha Alexandra Luccioni, Yacine Jernite
Abstract要約: BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
参考スコア（独自算出の注目度）: 36.98035382552118
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.
Abstract（参考訳）: 言語モデルがさらに大きくなるにつれて、特に多言語設定において、大規模で高品質なテキストデータセットの必要性は、これまで以上に押し上げられてきた。ビッグサイエンスワークショップ(bigscience workshop, 1-year international and multidisciplinary initiative)は、大きな言語モデルを価値駆動の事業として研究し、トレーニングし、倫理、危害、ガバナンスの問題をフォアグラウンドで解決することを目的として設立された。本稿では,bigscienceが実施する,責任あるオープンサイエンス・オープン・コラボレーション・テキストソース(roots)コーパスを組み立てるためのデータ作成とキュレーションの取り組みについて述べる。これは,59言語にわたる1.6tbのデータセットで,176億のパラメータを持つbigscience large open-science open-access multilingual (bloom) 言語モデルをトレーニングするために使用された。さらに、コーパスの大規模な初期サブセットとその分析をリリースし、データと処理ツールの両方を用いて、大規模単言語および多言語モデリングプロジェクトを支援し、この大規模多言語コーパスに関する研究を刺激したいと考えています。

関連論文リスト

Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking [2.321323878201932]
MultiSynFactは、2.2Mのクレームソースペアを含む最初の大規模多言語ファクトチェックデータセットである。我々のデータセット生成パイプラインはLarge Language Models (LLMs)を活用し、ウィキペディアの外部知識を統合する。ユーザフレンドリーなフレームワークをオープンソースとして公開し、マルチリンガルなファクトチェックとデータセット生成のさらなる研究を支援します。
論文参考訳（メタデータ） (2025-02-21T12:38:26Z)
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文参考訳（メタデータ） (2024-09-26T14:40:45Z)
Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文参考訳（メタデータ） (2024-04-25T14:34:47Z)
A New Massive Multilingual Dataset for High-Performance Language Technologies [14.375854322321997]
HPLT言語リソースは、モノリンガルとバイリンガルのコーパスを含む、新しい大規模多言語データセットである。我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計5.6兆のワードトークンがドキュメントレベルで重複している。私たちの英語中心のパラレルコーパスは、単言語対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。
論文参考訳（メタデータ） (2024-03-20T22:14:39Z)
X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文参考訳（メタデータ） (2024-03-18T01:14:47Z)
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文参考訳（メタデータ） (2024-01-31T20:29:50Z)
Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted Sentiment Classification Benchmark [7.888702613862612]
この研究は、感情モデルをトレーニングするためのデータセットの大規模なオープンな多言語コーパスを提示する。コーパスは、科学文献で報告された350以上のデータセットから、79個の手動で選択されたデータセットで構成されている。本稿では,異なるベースモデル,トレーニング目標,データセット収集,微調整戦略などを用いて実施した数百の実験を要約した多面的感情分類ベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-13T16:54:13Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
The Tatoeba Translation Challenge -- Realistic Data Sets for Low Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文参考訳（メタデータ） (2020-10-13T13:12:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。