論文の概要: Datasets: A Community Library for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2109.02846v1
- Date: Tue, 7 Sep 2021 03:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 22:43:28.456544
- Title: Datasets: A Community Library for Natural Language Processing
- Title(参考訳): Datasets: 自然言語処理のためのコミュニティライブラリ
- Authors: Quentin Lhoest, Albert Villanova del Moral, Yacine Jernite, Abhishek
Thakur, Patrick von Platen, Suraj Patil, Julien Chaumond, Mariama Drame,
Julien Plu, Lewis Tunstall, Joe Davison, Mario \v{S}a\v{s}ko, Gunjan
Chhablani, Bhavitvya Malik, Simon Brandeis, Teven Le Scao, Victor Sanh,
Canwen Xu, Nicolas Patry, Angelina McMillan-Major, Philipp Schmid, Sylvain
Gugger, Cl\'ement Delangue, Th\'eo Matussi\`ere, Lysandre Debut, Stas Bekman,
Pierric Cistac, Thibault Goehringer, Victor Mustar, Fran\c{c}ois Lagunas,
Alexander M. Rush, and Thomas Wolf
- Abstract要約: データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
- 参考スコア(独自算出の注目度): 55.48866401721244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scale, variety, and quantity of publicly-available NLP datasets has grown
rapidly as researchers propose new tasks, larger models, and novel benchmarks.
Datasets is a community library for contemporary NLP designed to support this
ecosystem. Datasets aims to standardize end-user interfaces, versioning, and
documentation, while providing a lightweight front-end that behaves similarly
for small datasets as for internet-scale corpora. The design of the library
incorporates a distributed, community-driven approach to adding datasets and
documenting usage. After a year of development, the library now includes more
than 650 unique datasets, has more than 250 contributors, and has helped
support a variety of novel cross-dataset research projects and shared tasks.
The library is available at https://github.com/huggingface/datasets.
- Abstract(参考訳): 研究者が新しいタスク、より大きなモデル、新しいベンチマークを提案するにつれ、公開可能なNLPデータセットの規模、多様性、量が急速に増加している。
Datasetsは、このエコシステムをサポートするように設計された、現代のNLPのためのコミュニティライブラリである。
Datasetsは、エンドユーザインターフェース、バージョニング、ドキュメントの標準化を目標とし、インターネット規模のコーパスと同じように小さなデータセットで同じように動作する軽量なフロントエンドを提供する。
ライブラリの設計には、データセットの追加とドキュメント利用のための分散コミュニティ主導のアプローチが含まれている。
1年の開発を経て、このライブラリには650以上のユニークなデータセットが含まれ、250以上のコントリビュータがいて、新しいクロスデータセット研究プロジェクトや共有タスクのサポートを支援している。
このライブラリはhttps://github.com/huggingface/datasetsで入手できる。
関連論文リスト
- Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - trajdata: A Unified Interface to Multiple Human Trajectory Datasets [32.93180256927027]
複数の人的トラジェクトリデータセットに対する統一インターフェースであるtrajdataを提案する。
Trajdataは、トラジェクトリとマップデータのためのシンプルで均一で効率的な表現とAPIを提供する。
論文 参考訳(メタデータ) (2023-07-26T02:45:59Z) - Towards Federated Foundation Models: Scalable Dataset Pipelines for
Group-Structured Learning [11.205441416962284]
大規模なグループ構造化データセットを作成するためのライブラリであるデータセットグルーパーを紹介する。
基礎モデルのスケールでの連合学習シミュレーションを可能にする。
論文 参考訳(メタデータ) (2023-07-18T20:27:45Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of
Downstream Tasks [0.007696728525672149]
Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。
これらファースト・オブ・ザ・キンドのベースラインのいくつかは、高リソース言語の最先端のパフォーマンスに匹敵するものである。
論文 参考訳(メタデータ) (2022-10-26T13:45:14Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。