論文の概要: What's In My Big Data?
- arxiv url: http://arxiv.org/abs/2310.20707v2
- Date: Tue, 5 Mar 2024 20:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:42:05.286717
- Title: What's In My Big Data?
- Title(参考訳): 私のビッグデータには何があるのか?
- Authors: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander,
Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini,
Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
- Abstract要約: 大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
- 参考スコア(独自算出の注目度): 67.04525616289949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large text corpora are the backbone of language models. However, we have a
limited understanding of the content of these corpora, including general
statistics, quality, social factors, and inclusion of evaluation data
(contamination). In this work, we propose What's In My Big Data? (WIMBD), a
platform and a set of sixteen analyses that allow us to reveal and compare the
contents of large text corpora. WIMBD builds on two basic capabilities -- count
and search -- at scale, which allows us to analyze more than 35 terabytes on a
standard compute node. We apply WIMBD to ten different corpora used to train
popular language models, including C4, The Pile, and RedPajama. Our analysis
uncovers several surprising and previously undocumented findings about these
corpora, including the high prevalence of duplicate, synthetic, and low-quality
content, personally identifiable information, toxic language, and benchmark
contamination. For instance, we find that about 50% of the documents in
RedPajama and LAION-2B-en are duplicates. In addition, several datasets used
for benchmarking models trained on such corpora are contaminated with respect
to important benchmarks, including the Winograd Schema Challenge and parts of
GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a
standard set of evaluations for new text-based corpora and to encourage more
analyses and transparency around them.
- Abstract(参考訳): 大きなテキストコーパスは言語モデルのバックボーンである。
しかし, 一般統計, 品質, 社会的要因, 評価データ(汚染)の包含など, コーパスの内容の理解は限られている。
本研究では,“What's In My Big Data”を提案する。
(WIMBD)は,大規模テキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットである。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
WIMBDをC4、The Pile、RedPajamaなど、一般的な言語モデルのトレーニングに使用する10種類のコーパスに適用する。
これらのコーパスについて, 重複, 合成, 品質の低さ, 個人識別可能な情報, 有毒な言語, ベンチマーク汚染など, 意外かつ未発表の発見がいくつか見出された。
例えば、RedPajamaとLAION-2B-enの文書の約50%が重複していることがわかった。
さらに、このようなコーパスでトレーニングされたモデルのベンチマークに使用されるいくつかのデータセットは、Winograd Schema ChallengeやGLUEとSuperGLUEの一部を含む重要なベンチマークに関して汚染されている。
我々はWIMBDのコードとアーティファクトをオープンソース化し、新しいテキストベースのコーパスに対する標準的な評価セットを提供し、それらの周りの分析と透明性を促進する。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis [7.952225508086861]
学術文献やファイナンスによる質問応答では、データはHTMLやPDF形式の生のテキストや表によく見られる。
2,965の現実世界の文書と29,590のエキスパート注釈付きQ&AペアからなるベンチマークスイートであるUnstructured Document Analysis (UDA)を導入する。
論文 参考訳(メタデータ) (2024-06-21T14:29:39Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Separating the Wheat from the Chaff with BREAD: An open-source benchmark
and metrics to detect redundancy in text [9.484323358958706]
BREADは,繰り返しボイラプレートと可塑性言語コンテンツに対する人間ラベル付きベンチマークである。
いくつかの基準値CRED(Character REDundancy)スコアを同時にリリースし,BREADの有効性を評価する。
論文 参考訳(メタデータ) (2023-11-11T00:11:50Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets [21.375943264243144]
5つの主要な公開データセットでリリースした205言語固有のコーパスの品質を手作業で監査する。
以上の結果から,少なくとも15コーパスは完全に誤用され,50%未満の品質の文を含むことが明らかとなった。
これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:30:33Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。