論文の概要: A Natural Language Processing Pipeline for Detecting Informal Data
References in Academic Literature
- arxiv url: http://arxiv.org/abs/2205.11651v1
- Date: Mon, 23 May 2022 22:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 06:31:43.202610
- Title: A Natural Language Processing Pipeline for Detecting Informal Data
References in Academic Literature
- Title(参考訳): 学術文献におけるインフォーマルデータ参照検出のための自然言語処理パイプライン
- Authors: Sara Lafia, Lizhou Fan, Libby Hemphill
- Abstract要約: 研究データセットへの非公式な参照のために出版物を検索・レビューする自然言語処理パイプラインを導入する。
このパイプラインは、文献のリコールを増やし、データ関連の出版物のコレクションに含めるようにレビューする。
本研究では,(1)非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(NER)モデル,(2)社会科学文献からの項目と参照するデータセットを接続するデータセットを提案する。
- 参考スコア(独自算出の注目度): 1.8692254863855962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering authoritative links between publications and the datasets that
they use can be a labor-intensive process. We introduce a natural language
processing pipeline that retrieves and reviews publications for informal
references to research datasets, which complements the work of data librarians.
We first describe the components of the pipeline and then apply it to expand an
authoritative bibliography linking thousands of social science studies to the
data-related publications in which they are used. The pipeline increases recall
for literature to review for inclusion in data-related collections of
publications and makes it possible to detect informal data references at scale.
We contribute (1) a novel Named Entity Recognition (NER) model that reliably
detects informal data references and (2) a dataset connecting items from social
science literature with datasets they reference. Together, these contributions
enable future work on data reference, data citation networks, and data reuse.
- Abstract(参考訳): 出版物と彼らが使用するデータセットの間の信頼できるリンクを見つけることは、労働集約的なプロセスである。
研究データセットへの非公式参照のために出版物を検索し、レビューする自然言語処理パイプラインを導入し、データライブラリーの作業を補完する。
まず、パイプラインの構成要素を説明し、それを用いて、何千もの社会科学研究と、それらが使われているデータ関連の出版物を結びつける権威書誌を拡大する。
このパイプラインは、出版物のデータ関連コレクションに含まれる文献をレビューするためのリコールを増加させ、大規模で非公式のデータ参照を検出できるようにする。
1) 非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(ner)モデルと,(2) 社会科学文献の項目と参照するデータセットを関連付けたデータセットを提案する。
これらの貢献により、データ参照、データ引用ネットワーク、データ再利用に関する将来の作業が可能になる。
関連論文リスト
- Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - [Citation needed] Data usage and citation practices in medical imaging conferences [1.9702506447163306]
データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。
本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。
以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
論文 参考訳(メタデータ) (2024-02-05T13:41:22Z) - SciLit: A Platform for Joint Scientific Literature Discovery,
Summarization and Citation Generation [11.186252009101077]
本稿では,関連論文を自動的に推薦し,ハイライトを抽出するパイプラインSciLitを提案し,論文の引用として参照文を提案する。
SciLitは、2段階の事前フェッチと再ランクの文献検索システムを使用して、数億の論文の大規模なデータベースから論文を効率的に推奨する。
論文 参考訳(メタデータ) (2023-06-06T09:34:45Z) - Inline Citation Classification using Peripheral Context and
Time-evolving Augmentation [23.88211560188731]
本稿では,引用文を用いた談話情報を提供する3Cextという新しいデータセットを提案する。
周辺文とドメイン知識を融合したトランスフォーマーベースのディープニューラルネットワークPeriCiteを提案する。
論文 参考訳(メタデータ) (2023-03-01T09:11:07Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Librarian-in-the-Loop: A Natural Language Processing Paradigm for
Detecting Informal Mentions of Research Data in Academic Literature [1.4190701053683017]
本研究では,研究データセットに対する非公式な言及を識別するヒューマンタスクを支援する自然言語処理パラダイムを提案する。
非公式なデータ発見の作業は現在、大学間政治社会研究コンソーシアム (Inter-University Consortium for Political and Social Research) の図書館員とそのスタッフによって行われている。
論文 参考訳(メタデータ) (2022-03-10T02:11:30Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。