論文の概要: Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources
- arxiv url: http://arxiv.org/abs/2201.10066v1
- Date: Tue, 25 Jan 2022 03:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 06:49:33.468356
- Title: Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources
- Title(参考訳): 地理的および文脈的に多様なデータソースの文書化:言語データとリソースのbigscienceカタログ
- Authors: Angelina McMillan-Major and Zaid Alyafeai and Stella Biderman and
Kimbo Chen and Francesco De Toni and G\'erard Dupont and Hady Elsahar and
Chris Emezue and Alham Fikri Aji and Suzana Ili\'c and Nurulaqilla Khamis and
Colin Leong and Maraim Masoud and Aitor Soroa and Pedro Ortiz Suarez and
Zeerak Talat and Daniel van Strien and Yacine Jernite
- Abstract要約: 我々はBigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示する。
我々は,潜在的なデータソースのメタデータを収集する,地理的に多様な対象言語群を同定する。
この取り組みを構築するために,組織化された公開ハッカソンを通じてメタデータを収集する支援ツールとして,オンラインカタログを開発した。
- 参考スコア(独自算出の注目度): 17.69148305999049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large-scale data collection efforts have prioritized the
amount of data collected in order to improve the modeling capabilities of large
language models. This prioritization, however, has resulted in concerns with
respect to the rights of data subjects represented in data collections,
particularly when considering the difficulty in interrogating these collections
due to insufficient documentation and tools for analysis. Mindful of these
pitfalls, we present our methodology for a documentation-first, human-centered
data collection project as part of the BigScience initiative. We identified a
geographically diverse set of target language groups (Arabic, Basque, Chinese,
Catalan, English, French, Indic languages, Indonesian, Niger-Congo languages,
Portuguese, Spanish, and Vietnamese, as well as programming languages) for
which to collect metadata on potential data sources. To structure this effort,
we developed our online catalogue as a supporting tool for gathering metadata
through organized public hackathons. We present our development process;
analyses of the resulting resource metadata, including distributions over
languages, regions, and resource types; and our lessons learned in this
endeavor.
- Abstract(参考訳): 近年,大規模データ収集の取り組みは,大規模言語モデルのモデリング能力を向上させるために収集されたデータ量を優先している。
しかし、この優先順位付けは、データコレクションに代表されるデータ主題の権利に関して、特にドキュメントや分析のためのツールが不十分であるためにこれらのコレクションの尋問が困難である場合、懸念を生じさせている。
これらの落とし穴を念頭に置いて、BigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示します。
我々は地理的に多様な対象言語群(アラビア語、バスク語、中国語、カタルーニャ語、英語、フランス語、インド語、インドネシア語、ニジェールコンゴ語、ポルトガル語、スペイン語、ベトナム語)を特定し、潜在的なデータソースのメタデータを収集した。
この取り組みを構造化するため,我々はオンラインカタログを,組織的なパブリックハッカソンを通じてメタデータを収集するための支援ツールとして開発した。
本稿では,開発プロセス,言語,地域,資源タイプにまたがる分布を含むリソースメタデータの分析,そしてこの取り組みで学んだ教訓について述べる。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning
Datasets for Indian Languages [37.79850860981589]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。