論文の概要: DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions
- arxiv url: http://arxiv.org/abs/2305.16636v2
- Date: Wed, 7 Jun 2023 03:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 18:28:43.233091
- Title: DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions
- Title(参考訳): DataFinder: 自然言語記述からの科学的データセット推奨
- Authors: Vijay Viswanathan, Luyu Gao, Tongshuang Wu, Pengfei Liu and Graham
Neubig
- Abstract要約: 我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
- 参考スコア(独自算出の注目度): 100.52917027038369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning relies on datasets to develop and validate research
ideas. Given the growth of publicly available data, finding the right dataset
to use is increasingly difficult. Any research question imposes explicit and
implicit constraints on how well a given dataset will enable researchers to
answer this question, such as dataset size, modality, and domain. We
operationalize the task of recommending datasets given a short natural language
description of a research idea, to help people find relevant datasets for their
needs. Dataset recommendation poses unique challenges as an information
retrieval problem; datasets are hard to directly index for search and there are
no corpora readily available for this task. To facilitate this task, we build
the DataFinder Dataset which consists of a larger automatically-constructed
training set (17.5K queries) and a smaller expert-annotated evaluation set (392
queries). Using this data, we compare various information retrieval algorithms
on our test set and present a superior bi-encoder retriever for text-based
dataset recommendation. This system, trained on the DataFinder Dataset, finds
more relevant search results than existing third-party dataset search engines.
To encourage progress on dataset recommendation, we release our dataset and
models to the public.
- Abstract(参考訳): 現代の機械学習は研究のアイデアを開発し検証するためのデータセットに依存している。
公開データの増加を考えると、適切なデータセットを見つけることはますます難しくなっている。
任意の研究質問は、データセットのサイズ、モダリティ、ドメインなど、研究者がこの疑問にどの程度うまく答えられるか、明示的で暗黙の制約を課している。
研究アイデアを自然言語で簡潔に記述したデータセットを推奨するタスクを運用し、ニーズに応じたデータセットの検索を支援する。
データセットは直接検索のインデックス付けが困難であり、このタスクに容易に利用できるコーパスはない。
この作業を容易にするために、より大規模な自動構築されたトレーニングセット(17.5kクエリ)と、より小さな専門家による評価セット(392クエリ)で構成されるdatafinderデータセットを構築する。
このデータを用いて,テストセット上の各種情報検索アルゴリズムを比較し,テキストベースデータセット推薦のための優れたバイエンコーダ検索器を提案する。
このシステムはDataFinder Datasetに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
データセットレコメンデーションの進展を促進するため、データセットとモデルを公開しています。
関連論文リスト
- Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T14:18:46Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset
Evaluation for Text Classification [39.01740345482624]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) (2022-05-04T15:33:00Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - Simplified Data Wrangling with ir_datasets [37.558383796758356]
ir_datasesは、IR(Information Retrieval)実験で使用されるデータセット上の典型的な操作を取得、管理、実行するためのツールです。
このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。
論文 参考訳(メタデータ) (2021-03-03T09:38:36Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。