論文の概要: DMDD: A Large-Scale Dataset for Dataset Mentions Detection
- arxiv url: http://arxiv.org/abs/2305.11779v1
- Date: Fri, 19 May 2023 16:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:41:28.238559
- Title: DMDD: A Large-Scale Dataset for Dataset Mentions Detection
- Title(参考訳): dmdd:データセット検出のための大規模データセット
- Authors: Huitong Pan, Qi Zhang, Eduard Dragut, Cornelia Caragea, Longin Jan
Latecki
- Abstract要約: 本稿では,このタスクで利用可能な最大公用コーパスであるデータセット参照検出データセット(DMDD)を紹介する。
DMDDはDMDDのメインコーパスで構成され、449,000以上のデータセットを持つ31,219の科学論文からなり、インテキストスパンの形式に弱い注釈が付けられている。
DMDD上での各種モデルの性能を解析することにより,データセット参照検出におけるオープンな問題を特定することができる。
- 参考スコア(独自算出の注目度): 43.762713430805455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recognition of dataset names is a critical task for automatic information
extraction in scientific literature, enabling researchers to understand and
identify research opportunities. However, existing corpora for dataset mention
detection are limited in size and naming diversity. In this paper, we introduce
the Dataset Mentions Detection Dataset (DMDD), the largest publicly available
corpus for this task. DMDD consists of the DMDD main corpus, comprising 31,219
scientific articles with over 449,000 dataset mentions weakly annotated in the
format of in-text spans, and an evaluation set, which comprises of 450
scientific articles manually annotated for evaluation purposes. We use DMDD to
establish baseline performance for dataset mention detection and linking. By
analyzing the performance of various models on DMDD, we are able to identify
open problems in dataset mention detection. We invite the community to use our
dataset as a challenge to develop novel dataset mention detection models.
- Abstract(参考訳): データセット名の認識は、研究者が研究の機会を理解し、識別することを可能にする科学文献における自動情報抽出の重要なタスクである。
しかし、データセットの参照検出のための既存のコーパスは、サイズと命名の多様性に制限がある。
本稿では,このタスクのための最大公用コーパスであるDataset Mentions Detection Dataset (DMDD)を紹介する。
DMDDはDMDDのメインコーパスで構成され、449,000以上のデータセットを持つ31,219の科学論文と、インテキストスパンの形式に弱い注釈を付けた評価セットと、評価目的のために手動で注釈付けされた450の科学論文からなる評価セットから構成されている。
DMDDを用いてデータセットの参照検出とリンクのベースライン性能を確立する。
DMDD上での各種モデルの性能を解析することにより,データセット参照検出におけるオープンな問題を特定することができる。
私たちはコミュニティに、新しいデータセット参照検出モデルを開発するための課題として、データセットを使用することを勧めています。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Introducing a Comprehensive, Continuous, and Collaborative Survey of Intrusion Detection Datasets [2.7082111912355877]
COMIDDSは、侵入検出データセットを前例のないレベルで包括的に調査する試みである。
実際のデータサンプルや関連する出版物へのリンクを含む、各データセットに関する構造化されたクリティカルな情報を提供する。
論文 参考訳(メタデータ) (2024-08-05T14:40:41Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - BugNIST -- a Large Volumetric Dataset for Object Detection under Domain Shift [5.818883841500506]
BugNISTデータセットは,12種類のバグタイプ9154マイクロCTボリュームと,密充填されたバグミックス388ボリュームからなる。
このデータセットは、ソースとターゲットドメインで同じ外観のオブジェクトによって特徴づけられる。
本研究では,3次元物体検出手法のフィールド化をめざして,ベースライン検出解析を行う。
論文 参考訳(メタデータ) (2023-04-04T14:44:06Z) - Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings [20.37092575427039]
自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。
異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。
データセットは浅層および深層学習法に基づいて評価される。
論文 参考訳(メタデータ) (2022-10-25T14:33:17Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z) - GraspNet: A Large-Scale Clustered and Densely Annotated Dataset for
Object Grasping [49.777649953381676]
我々は,統合評価システムを用いた大規模グリップポーズ検出データセットに貢献する。
データセットには87,040枚のRGBD画像と3億7000万枚以上のグリップポーズが含まれている。
論文 参考訳(メタデータ) (2019-12-31T18:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。