論文の概要: Simplified Data Wrangling with ir_datasets
- arxiv url: http://arxiv.org/abs/2103.02280v1
- Date: Wed, 3 Mar 2021 09:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:56:28.049421
- Title: Simplified Data Wrangling with ir_datasets
- Title(参考訳): ir_datasetsを用いた簡易データラング
- Authors: Sean MacAvaney, Andrew Yates, Sergey Feldman, Doug Downey, Arman
Cohan, Nazli Goharian
- Abstract要約: ir_datasesは、IR(Information Retrieval)実験で使用されるデータセット上の典型的な操作を取得、管理、実行するためのツールです。
このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。
- 参考スコア(独自算出の注目度): 37.558383796758356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Managing the data for Information Retrieval (IR) experiments can be
challenging. Dataset documentation is scattered across the Internet and once
one obtains a copy of the data, there are numerous different data formats to
work with. Even basic formats can have subtle dataset-specific nuances that
need to be considered for proper use. To help mitigate these challenges, we
introduce a new robust and lightweight tool (ir_datases) for acquiring,
managing, and performing typical operations over datasets used in IR. We
primarily focus on textual datasets used for ad-hoc search. This tool provides
both a python and command line interface to numerous IR datasets and
benchmarks. To our knowledge, this is the most extensive tool of its kind.
Integrations with popular IR indexing and experimentation toolkits demonstrate
the tool's utility. We also provide documentation of these datasets through the
ir_datasets catalog: https://ir-datasets.com/. The catalog acts as a hub for
information on datasets used in IR, providing core information about what data
each benchmark provides as well as links to more detailed information. We
welcome community contributions and intend to continue to maintain and grow
this tool.
- Abstract(参考訳): 情報検索(IR)実験のためのデータ管理は困難である。
データセットのドキュメンテーションはインターネットに散らばっていて、一度データのコピーを取得すれば、処理すべきデータ形式はたくさんあります。
基本的なフォーマットでさえ、適切な使用のために考慮する必要がある微妙なデータセット固有のニュアンスを持つことができる。
これらの課題を軽減するために、IRで使用されるデータセット上の典型的な操作を取得、管理、実行するための新しい堅牢で軽量なツール(ir_datases)を導入しました。
主にアドホック検索に使用されるテキストデータセットに注目します。
このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。
私たちの知る限り、これはその種の最も広範なツールです。
人気のIRインデクシングと実験ツールキットとの統合は、ツールのユーティリティを示しています。
また、ir_datasetsカタログを通じてこれらのデータセットのドキュメンテーションも提供します。
このカタログは、IRで使用されるデータセットに関する情報のハブとして機能し、各ベンチマークが提供するデータと、より詳細な情報へのリンクに関するコア情報を提供する。
私たちはコミュニティの貢献を歓迎し、このツールの維持と成長を続けます。
関連論文リスト
- Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - Ad-datasets: a meta-collection of data sets for autonomous driving [5.317624228510748]
ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。
ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
論文 参考訳(メタデータ) (2022-02-03T23:45:48Z) - MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。
本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文 参考訳(メタデータ) (2020-08-05T06:16:13Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。