Fugu-MT 論文翻訳(概要): A Natural Language Processing Pipeline for Detecting Informal Data References in Academic Literature

論文の概要: A Natural Language Processing Pipeline for Detecting Informal Data References in Academic Literature

arxiv url: http://arxiv.org/abs/2205.11651v1
Date: Mon, 23 May 2022 22:06:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-29 06:31:43.202610
Title: A Natural Language Processing Pipeline for Detecting Informal Data References in Academic Literature
Title（参考訳）: 学術文献におけるインフォーマルデータ参照検出のための自然言語処理パイプライン
Authors: Sara Lafia, Lizhou Fan, Libby Hemphill
Abstract要約: 研究データセットへの非公式な参照のために出版物を検索・レビューする自然言語処理パイプラインを導入する。このパイプラインは、文献のリコールを増やし、データ関連の出版物のコレクションに含めるようにレビューする。本研究では,(1)非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(NER)モデル,(2)社会科学文献からの項目と参照するデータセットを接続するデータセットを提案する。
参考スコア（独自算出の注目度）: 1.8692254863855962
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Discovering authoritative links between publications and the datasets that they use can be a labor-intensive process. We introduce a natural language processing pipeline that retrieves and reviews publications for informal references to research datasets, which complements the work of data librarians. We first describe the components of the pipeline and then apply it to expand an authoritative bibliography linking thousands of social science studies to the data-related publications in which they are used. The pipeline increases recall for literature to review for inclusion in data-related collections of publications and makes it possible to detect informal data references at scale. We contribute (1) a novel Named Entity Recognition (NER) model that reliably detects informal data references and (2) a dataset connecting items from social science literature with datasets they reference. Together, these contributions enable future work on data reference, data citation networks, and data reuse.
Abstract（参考訳）: 出版物と彼らが使用するデータセットの間の信頼できるリンクを見つけることは、労働集約的なプロセスである。研究データセットへの非公式参照のために出版物を検索し、レビューする自然言語処理パイプラインを導入し、データライブラリーの作業を補完する。まず、パイプラインの構成要素を説明し、それを用いて、何千もの社会科学研究と、それらが使われているデータ関連の出版物を結びつける権威書誌を拡大する。このパイプラインは、出版物のデータ関連コレクションに含まれる文献をレビューするためのリコールを増加させ、大規模で非公式のデータ参照を検出できるようにする。 1) 非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(ner)モデルと,(2) 社会科学文献の項目と参照するデータセットを関連付けたデータセットを提案する。これらの貢献により、データ参照、データ引用ネットワーク、データ再利用に関する将来の作業が可能になる。

関連論文リスト

Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts [0.0]
本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。コード、評価データセット、結果はGitHubで公開しています。
論文参考訳（メタデータ） (2026-01-08T16:46:06Z)
Zero-shot data citation function classification using transformer-based large language models (LLMs) [0.0]
オープンソースの大規模言語モデルを用いて、特定のゲノムデータセットを組み込んだ出版物の構造化データ利用事例ラベルを生成する。以上の結果から, 既定カテゴリを持たないゼロショットデータ引用分類タスクにおいて, ストックモデルがF1スコア.674を達成できることが示唆された。
論文参考訳（メタデータ） (2025-11-04T19:33:30Z)
Chatting with Papers: A Hybrid Approach Using LLMs and Knowledge Graphs [3.68389405018277]
このデモでは、大規模な言語モデルと知識グラフを組み合わせて、コレクションによるナビゲーションをサポートする新しいワークフローのtextitGhostWriterが報告されている。 textitGhostWriterは、バックエンドの textitEverythingDataに基づいて、コレクションと'クエリとチャット'が可能なインターフェイスを提供する。
論文参考訳（メタデータ） (2025-05-16T18:51:51Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
[Citation needed] Data usage and citation practices in medical imaging conferences [1.9702506447163306]
データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
論文参考訳（メタデータ） (2024-02-05T13:41:22Z)
Natural Language Processing for Drug Discovery Knowledge Graphs: promises and pitfalls [0.0]
薬物発見を支援するための知識グラフ(KGs)の構築と分析は、研究の話題となっている。我々は、自然言語処理(NLP)を用いて、構造化されていないテキストをKGのデータソースとしてマイニングすることの約束と落とし穴について論じる。
論文参考訳（メタデータ） (2023-10-24T07:35:24Z)
SciLit: A Platform for Joint Scientific Literature Discovery, Summarization and Citation Generation [11.186252009101077]
本稿では,関連論文を自動的に推薦し,ハイライトを抽出するパイプラインSciLitを提案し,論文の引用として参照文を提案する。 SciLitは、2段階の事前フェッチと再ランクの文献検索システムを使用して、数億の論文の大規模なデータベースから論文を効率的に推奨する。
論文参考訳（メタデータ） (2023-06-06T09:34:45Z)
Inline Citation Classification using Peripheral Context and Time-evolving Augmentation [23.88211560188731]
本稿では,引用文を用いた談話情報を提供する3Cextという新しいデータセットを提案する。周辺文とドメイン知識を融合したトランスフォーマーベースのディープニューラルネットワークPeriCiteを提案する。
論文参考訳（メタデータ） (2023-03-01T09:11:07Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。 CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文参考訳（メタデータ） (2022-12-19T16:10:56Z)
Librarian-in-the-Loop: A Natural Language Processing Paradigm for Detecting Informal Mentions of Research Data in Academic Literature [1.4190701053683017]
本研究では,研究データセットに対する非公式な言及を識別するヒューマンタスクを支援する自然言語処理パラダイムを提案する。非公式なデータ発見の作業は現在、大学間政治社会研究コンソーシアム (Inter-University Consortium for Political and Social Research) の図書館員とそのスタッフによって行われている。
論文参考訳（メタデータ） (2022-03-10T02:11:30Z)
DeepShovel: An Online Collaborative Platform for Data Extraction in Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。 DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。 14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文参考訳（メタデータ） (2022-02-21T12:18:08Z)
Assessing the quality of sources in Wikidata across languages: a hybrid approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文参考訳（メタデータ） (2021-09-20T10:06:46Z)
CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (2021-06-03T03:00:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。