論文の概要: Datasheet for the Pile
- arxiv url: http://arxiv.org/abs/2201.07311v1
- Date: Thu, 13 Jan 2022 23:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-23 19:22:54.722381
- Title: Datasheet for the Pile
- Title(参考訳): パイル用データシート
- Authors: Stella Biderman and Kieran Bicheno and Leo Gao
- Abstract要約: Pile(パイル)は、EleutherAIが大規模な言語モデリングのために作成した、人間によるテキストのデータセットである。
Pileは22の異なるテキストソースで構成されており、このプロジェクトで作成されたオリジナルのスクラップから、データ所有者が利用可能なテキストデータ、オンラインで利用可能なサードパーティのスクラップまでである。
- 参考スコア(独自算出の注目度): 3.5640404811408932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This datasheet describes the Pile, a 825 GiB dataset of human-authored text
compiled by EleutherAI for use in large-scale language modeling. The Pile is
comprised of 22 different text sources, ranging from original scrapes done for
this project, to text data made available by the data owners, to third-party
scrapes available online.
- Abstract(参考訳): このデータシートは、EleutherAIが大規模な言語モデリングのためにコンパイルした825 GiBデータセットであるPileを記述している。
Pileは22の異なるテキストソースで構成されており、このプロジェクトで作成されたオリジナルのスクラップから、データ所有者が利用可能なテキストデータ、オンラインで利用可能なサードパーティのスクラップまでである。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts [62.55349777609194]
我々は、SATと呼ばれるテキストプロンプトによって駆動される放射線学的スキャンにおいて、任意のセグメンテーションを可能にするモデルを構築することを目指している。
トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
我々はSAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition [6.780778335996319]
本稿では,Farsi印刷テキスト認識に適した大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
論文 参考訳(メタデータ) (2023-12-02T16:56:57Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - evaluating bert and parsbert for analyzing persian advertisement data [0.0]
この論文は、イランで製品やサービスを売買するオンラインマーケットプレイスであるDivarの例を用いている。
それは、DivarのWebサイトに掲載される自動車販売広告の割合を予測するためのコンペティションを提示している。
このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
論文 参考訳(メタデータ) (2023-05-03T20:50:05Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - The Pile: An 800GB Dataset of Diverse Text for Language Modeling [2.3336168869135605]
大規模言語モデルの訓練を目的とした,825 GiB の英語テキストコーパス Pile' を提示する。
パイルは22の多様な高品質のサブセットから作られており、その多くは学術的または専門的な情報源に由来する。
論文 参考訳(メタデータ) (2020-12-31T19:00:10Z) - scb-mt-en-th-2020: A Large English-Thai Parallel Corpus [3.3072037841206354]
我々は100万以上のセグメント対を持つ英タイ機械翻訳データセットを構築した。
このデータセットに基づいて機械翻訳モデルを訓練する。
データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。
論文 参考訳(メタデータ) (2020-07-07T15:14:32Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。