論文の概要: A Natural Language Processing Pipeline for Detecting Informal Data
References in Academic Literature
- arxiv url: http://arxiv.org/abs/2205.11651v1
- Date: Mon, 23 May 2022 22:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 06:31:43.202610
- Title: A Natural Language Processing Pipeline for Detecting Informal Data
References in Academic Literature
- Title(参考訳): 学術文献におけるインフォーマルデータ参照検出のための自然言語処理パイプライン
- Authors: Sara Lafia, Lizhou Fan, Libby Hemphill
- Abstract要約: 研究データセットへの非公式な参照のために出版物を検索・レビューする自然言語処理パイプラインを導入する。
このパイプラインは、文献のリコールを増やし、データ関連の出版物のコレクションに含めるようにレビューする。
本研究では,(1)非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(NER)モデル,(2)社会科学文献からの項目と参照するデータセットを接続するデータセットを提案する。
- 参考スコア(独自算出の注目度): 1.8692254863855962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering authoritative links between publications and the datasets that
they use can be a labor-intensive process. We introduce a natural language
processing pipeline that retrieves and reviews publications for informal
references to research datasets, which complements the work of data librarians.
We first describe the components of the pipeline and then apply it to expand an
authoritative bibliography linking thousands of social science studies to the
data-related publications in which they are used. The pipeline increases recall
for literature to review for inclusion in data-related collections of
publications and makes it possible to detect informal data references at scale.
We contribute (1) a novel Named Entity Recognition (NER) model that reliably
detects informal data references and (2) a dataset connecting items from social
science literature with datasets they reference. Together, these contributions
enable future work on data reference, data citation networks, and data reuse.
- Abstract(参考訳): 出版物と彼らが使用するデータセットの間の信頼できるリンクを見つけることは、労働集約的なプロセスである。
研究データセットへの非公式参照のために出版物を検索し、レビューする自然言語処理パイプラインを導入し、データライブラリーの作業を補完する。
まず、パイプラインの構成要素を説明し、それを用いて、何千もの社会科学研究と、それらが使われているデータ関連の出版物を結びつける権威書誌を拡大する。
このパイプラインは、出版物のデータ関連コレクションに含まれる文献をレビューするためのリコールを増加させ、大規模で非公式のデータ参照を検出できるようにする。
1) 非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(ner)モデルと,(2) 社会科学文献の項目と参照するデータセットを関連付けたデータセットを提案する。
これらの貢献により、データ参照、データ引用ネットワーク、データ再利用に関する将来の作業が可能になる。
関連論文リスト
- [Citation needed] Data usage and citation practices in medical imaging
conferences [2.0551097461599297]
データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。
本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。
以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
論文 参考訳(メタデータ) (2024-02-05T13:41:22Z) - SciLit: A Platform for Joint Scientific Literature Discovery,
Summarization and Citation Generation [11.186252009101077]
本稿では,関連論文を自動的に推薦し,ハイライトを抽出するパイプラインSciLitを提案し,論文の引用として参照文を提案する。
SciLitは、2段階の事前フェッチと再ランクの文献検索システムを使用して、数億の論文の大規模なデータベースから論文を効率的に推奨する。
論文 参考訳(メタデータ) (2023-06-06T09:34:45Z) - Linked Data Science Powered by Knowledge Graphs [3.6319424256529844]
本稿では,機械学習を用いてデータサイエンスパイプラインのセマンティクスを抽出し,それらを知識グラフでキャプチャするスケーラブルなシステムを提案する。
この抽象化がLinked Data Scienceを可能にする鍵となるのは、プラットフォームや企業、機関間でパイプラインの本質を共有することができるからです。
KGLiDSは、データセットのレコメンデーションやパイプラインの分類といった関連するタスクにおいて、最先端のシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - Inline Citation Classification using Peripheral Context and
Time-evolving Augmentation [23.88211560188731]
本稿では,引用文を用いた談話情報を提供する3Cextという新しいデータセットを提案する。
周辺文とドメイン知識を融合したトランスフォーマーベースのディープニューラルネットワークPeriCiteを提案する。
論文 参考訳(メタデータ) (2023-03-01T09:11:07Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Librarian-in-the-Loop: A Natural Language Processing Paradigm for
Detecting Informal Mentions of Research Data in Academic Literature [1.4190701053683017]
本研究では,研究データセットに対する非公式な言及を識別するヒューマンタスクを支援する自然言語処理パラダイムを提案する。
非公式なデータ発見の作業は現在、大学間政治社会研究コンソーシアム (Inter-University Consortium for Political and Social Research) の図書館員とそのスタッフによって行われている。
論文 参考訳(メタデータ) (2022-03-10T02:11:30Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。