論文の概要: Addressing "Documentation Debt" in Machine Learning Research: A
Retrospective Datasheet for BookCorpus
- arxiv url: http://arxiv.org/abs/2105.05241v1
- Date: Tue, 11 May 2021 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:03:14.143671
- Title: Addressing "Documentation Debt" in Machine Learning Research: A
Retrospective Datasheet for BookCorpus
- Title(参考訳): 機械学習研究における"ドキュメント負債"への対処:BookCorpusのふりかえりデータシート
- Authors: Jack Bandy, Nicholas Vincent
- Abstract要約: BookCorpusは、大規模な言語モデルをトレーニングするための人気のテキストデータセットです。
BookCorpusは多くの書籍の著作権制限に違反している。
BookCorpusはジャンル表現において大きな歪みを見せている。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent literature has underscored the importance of dataset documentation
work for machine learning, and part of this work involves addressing
"documentation debt" for datasets that have been used widely but documented
sparsely. This paper aims to help address documentation debt for BookCorpus, a
popular text dataset for training large language models. Notably, researchers
have used BookCorpus to train OpenAI's GPT-N models and Google's BERT models,
even though little to no documentation exists about the dataset's motivation,
composition, collection process, etc. We offer a preliminary datasheet that
provides key context and information about BookCorpus, highlighting several
notable deficiencies. In particular, we find evidence that (1) BookCorpus
likely violates copyright restrictions for many books, (2) BookCorpus contains
thousands of duplicated books, and (3) BookCorpus exhibits significant skews in
genre representation. We also find hints of other potential deficiencies that
call for future research, including problematic content, potential skews in
religious representation, and lopsided author contributions. While more work
remains, this initial effort to provide a datasheet for BookCorpus adds to
growing literature that urges more careful and systematic documentation for
machine learning datasets.
- Abstract(参考訳): 近年の文献では、機械学習におけるデータセットの文書化作業の重要性が強調されている。
本稿では,大規模言語モデルのトレーニング用テキストデータセットであるBookCorpusのドキュメント負債の解決を支援することを目的とする。
特に、研究者はBookCorpusを使ってOpenAIのGPT-NモデルとGoogleのBERTモデルをトレーニングしている。
bookcorpusに関する重要なコンテキストと情報を提供する予備データシートを提供し、いくつかの注目すべき欠陥を強調する。
特に,(1)BookCorpusは多くの書籍の著作権制限に違反している可能性,(2)BookCorpusには数千冊の複製本が含まれており,(3)BookCorpusはジャンル表現において顕著な歪を呈していることを示す。
また、問題のある内容、宗教的な表現の潜在的な歪み、偏見のない著者の貢献など、今後の研究を求める潜在的な欠陥のヒントも見つける。
さらなる作業は残っているが、bookcorpus用のデータシートを提供するこの最初の取り組みは、機械学習データセットのより慎重で体系的なドキュメントを求める文学の成長を増す。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Doc2Graph: a Task Agnostic Document Understanding Framework based on
Graph Neural Networks [0.965964228590342]
GNNモデルに基づくタスクに依存しない文書理解フレームワークDoc2Graphを提案する。
形態理解,請求書レイアウト解析,テーブル検出における鍵情報抽出のための2つの挑戦的データセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-23T19:48:10Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - GameWikiSum: a Novel Large Multi-Document Summarization Dataset [39.38032088973816]
GameWikiSumは、マルチドキュメント要約のための新しいドメイン固有のデータセットである。
一般的に使用されるデータセットの100倍の大きさであり、ニュースよりも別の領域にある。
提案したデータセットを分析し,抽象モデルと抽出モデルの両方をトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2020-02-17T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。