論文の概要: Librarian-in-the-Loop: A Natural Language Processing Paradigm for
Detecting Informal Mentions of Research Data in Academic Literature
- arxiv url: http://arxiv.org/abs/2203.05112v1
- Date: Thu, 10 Mar 2022 02:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:39:12.727753
- Title: Librarian-in-the-Loop: A Natural Language Processing Paradigm for
Detecting Informal Mentions of Research Data in Academic Literature
- Title(参考訳): Librarian-in-the-Loop:学術文献における研究データのインフォーマルな操作を検出する自然言語処理パラダイム
- Authors: Lizhou Fan, Sara Lafia, David Bleckley, Elizabeth Moss, Andrea Thomer,
Libby Hemphill
- Abstract要約: 本研究では,研究データセットに対する非公式な言及を識別するヒューマンタスクを支援する自然言語処理パラダイムを提案する。
非公式なデータ発見の作業は現在、大学間政治社会研究コンソーシアム (Inter-University Consortium for Political and Social Research) の図書館員とそのスタッフによって行われている。
- 参考スコア(独自算出の注目度): 1.4190701053683017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data citations provide a foundation for studying research data impact.
Collecting and managing data citations is a new frontier in archival science
and scholarly communication. However, the discovery and curation of research
data citations is labor intensive. Data citations that reference unique
identifiers (i.e. DOIs) are readily findable; however, informal mentions made
to research data are more challenging to infer. We propose a natural language
processing (NLP) paradigm to support the human task of identifying informal
mentions made to research datasets. The work of discovering informal data
mentions is currently performed by librarians and their staff in the
Inter-university Consortium for Political and Social Research (ICPSR), a large
social science data archive that maintains a large bibliography of data-related
literature. The NLP model is bootstrapped from data citations actively
collected by librarians at ICPSR. The model combines pattern matching with
multiple iterations of human annotations to learn additional rules for
detecting informal data mentions. These examples are then used to train an NLP
pipeline. The librarian-in-the-loop paradigm is centered in the data work
performed by ICPSR librarians, supporting broader efforts to build a more
comprehensive bibliography of data-related literature that reflects the
scholarly communities of research data users.
- Abstract(参考訳): データ引用は、研究データへの影響を研究する基盤を提供する。
データ引用の収集と管理は、アーカイブ科学と学術コミュニケーションの新しいフロンティアである。
しかし、研究データ引用の発見とキュレーションは労働集約的である。
ユニークな識別子(DOI)を参照するデータ引用は容易に見つけられるが、研究データに対する非公式な言及は推論がより困難である。
本研究では,研究データセットに対する非公式な言及を識別する作業を支援する自然言語処理(NLP)パラダイムを提案する。
非公式なデータ参照を発見する作業は、現在、図書館員とそのスタッフが、データ関連文学の大規模な文献を保管する大規模な社会科学データアーカイブであるICPSR(Inter-University Consortium for Political and Social Research)で行われている。
NLPモデルはICPSRの図書館員が積極的に収集したデータ引用からブートストラップされる。
このモデルはパターンマッチングと人間のアノテーションの繰り返しを組み合わせることで、非公式なデータ参照を検出するための追加ルールを学ぶ。
これらの例は、NLPパイプラインのトレーニングに使用される。
librarian-in-the-loopパラダイムは、icpsr librariansが行ったデータ研究を中心に、研究データ利用者の学術的コミュニティを反映した、より包括的なデータ関連文献の書誌作成を支援する。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Natural Language Processing for Drug Discovery Knowledge Graphs:
promises and pitfalls [0.0]
薬物発見を支援するための知識グラフ(KGs)の構築と分析は、研究の話題となっている。
我々は、自然言語処理(NLP)を用いて、構造化されていないテキストをKGのデータソースとしてマイニングすることの約束と落とし穴について論じる。
論文 参考訳(メタデータ) (2023-10-24T07:35:24Z) - NLPeer: A Unified Resource for the Computational Study of Peer Review [58.71736531356398]
NLPeer - 5万以上の論文と5つの異なる会場からの1万1千件のレビューレポートからなる、初めて倫理的にソースされたマルチドメインコーパス。
従来のピアレビューデータセットを拡張し、解析および構造化された論文表現、豊富なメタデータ、バージョニング情報を含む。
我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道のりをたどっている。
論文 参考訳(メタデータ) (2022-11-12T12:29:38Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - A Natural Language Processing Pipeline for Detecting Informal Data
References in Academic Literature [1.8692254863855962]
研究データセットへの非公式な参照のために出版物を検索・レビューする自然言語処理パイプラインを導入する。
このパイプラインは、文献のリコールを増やし、データ関連の出版物のコレクションに含めるようにレビューする。
本研究では,(1)非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(NER)モデル,(2)社会科学文献からの項目と参照するデータセットを接続するデータセットを提案する。
論文 参考訳(メタデータ) (2022-05-23T22:06:46Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。