論文の概要: SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software
Mentions in Scientific Articles
- arxiv url: http://arxiv.org/abs/2108.09070v1
- Date: Fri, 20 Aug 2021 08:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 21:58:07.243488
- Title: SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software
Mentions in Scientific Articles
- Title(参考訳): somesci - a 5 star open data gold standard knowledge graph of software mentions in scientific article
- Authors: David Schindler, Felix Bensmann, Stefan Dietze and Frank Kr\"uger
- Abstract要約: SoMeSciは、科学論文におけるソフトウェア言及の知識グラフである。
高品質なアノテーション(IRR: $kappa=.82$)が含まれており、1367年のPubMed Centralの記事で3756のソフトウェアが言及されている。
- 参考スコア(独自算出の注目度): 1.335443972283229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge about software used in scientific investigations is important for
several reasons, for instance, to enable an understanding of provenance and
methods involved in data handling. However, software is usually not formally
cited, but rather mentioned informally within the scholarly description of the
investigation, raising the need for automatic information extraction and
disambiguation. Given the lack of reliable ground truth data, we present
SoMeSci (Software Mentions in Science) a gold standard knowledge graph of
software mentions in scientific articles. It contains high quality annotations
(IRR: $\kappa{=}.82$) of 3756 software mentions in 1367 PubMed Central
articles. Besides the plain mention of the software, we also provide relation
labels for additional information, such as the version, the developer, a URL or
citations. Moreover, we distinguish between different types, such as
application, plugin or programming environment, as well as different types of
mentions, such as usage or creation. To the best of our knowledge, SoMeSci is
the most comprehensive corpus about software mentions in scientific articles,
providing training samples for Named Entity Recognition, Relation Extraction,
Entity Disambiguation, and Entity Linking. Finally, we sketch potential use
cases and provide baseline results.
- Abstract(参考訳): 科学的調査で使用されるソフトウェアに関する知識は、例えばデータ処理に関わる証明と方法の理解を可能にするために、いくつかの理由から重要である。
しかし、ソフトウェアは通常、正式に言及されるのではなく、調査の学術的な説明の中で非公式に言及され、自動的な情報抽出と曖昧さの解消の必要性が高まる。
信頼できる根拠データがないことを考慮し、科学論文におけるソフトウェア言及のゴールド標準知識グラフであるsomesci(software mentions in science)を提示する。
1367年のpubmed centralの記事で言及された3756のソフトウェアのうち、高品質なアノテーション(irr: $\kappa{=}.82$)を含んでいる。
ソフトウェアについての平凡な言及に加えて、バージョン、開発者、URL、引用などの追加情報のための関係ラベルも提供しています。
さらに,アプリケーションやプラグイン,プログラミング環境といった異なるタイプと,使用や生成といったさまざまなタイプの言及を区別する。
私たちの知る限り、SoMeSciは科学論文におけるソフトウェア言及に関する最も包括的なコーパスであり、名前付きエンティティ認識、関係抽出、エンティティの曖昧さ、エンティティリンクのためのトレーニングサンプルを提供します。
最後に、潜在的なユースケースをスケッチし、ベースライン結果を提供する。
関連論文リスト
- Don't mention it: An approach to assess challenges to using software
mentions for citation and discoverability research [0.3268055538225029]
本研究では,このようなデータセットのユーザビリティを研究ソフトウェア研究のために評価する手法を提案する。
1つのデータセットは、前述のソフトウェアへのリンクをまったく提供しないが、もう1つのデータセットは、定量的研究の取り組みを妨げることができる。
ソフトウェア参照データセットを扱う際の最大の課題と根底にある問題は、ソフトウェア引用のまだ最適なプラクティスである。
論文 参考訳(メタデータ) (2024-02-22T14:51:17Z) - How do software citation formats evolve over time? A longitudinal
analysis of R programming language packages [12.082972614614413]
本研究では2021年と2022年に収集された全Rパッケージの引用形式の時系列データセットを比較し,分析する。
引用の背景となるさまざまなドキュメントタイプと、引用形式におけるメタデータ要素が時間とともに変化したかを検討する。
論文 参考訳(メタデータ) (2023-07-17T09:18:57Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Pattern-based Acquisition of Scientific Entities from Scholarly Article
Titles [0.0]
本稿では,学術論文のタイトルから科学的実体を自動的に取得するためのルールベースのアプローチについて述べる。
我々は容易に認識可能なレキシコシンタクティックパターンの集合を同定する。
取得アルゴリズムのサブセットは、計算言語学(CL)学術領域の論文タイトルに対して実装される。
論文 参考訳(メタデータ) (2021-09-01T05:59:06Z) - Document Embedding for Scientific Articles: Efficacy of Word Embeddings
vs TFIDF [0.0]
本研究は,大規模学術コーパスに適用した単語埋め込みの性能に着目した。
我々は, 学習語埋め込みの品質と効率を, 科学論文の内容のモデル化におけるTFIDF表現と比較した。
以上の結果から,単語埋め込みに基づくコンテンツモデルの方がタイトル(短文)に,TFIDFは抽象文(長文)に好適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-11T23:58:39Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Investigating Software Usage in the Social Sciences: A Knowledge Graph
Approach [0.483420384410068]
我々は、社会科学から51,000以上の科学論文から引用されたソフトウェアに関する情報を含む知識グラフ「SoftwareKG」を提示する。
LSTMベースのニューラルネットワークをトレーニングするために、ニューラルネットワークを使用して、科学論文に記載されているソフトウェアを識別した。
我々は、社会科学におけるソフトウェアの役割を評価するために、SoftwareKGをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2020-03-24T08:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。