論文の概要: Investigating Software Usage in the Social Sciences: A Knowledge Graph
Approach
- arxiv url: http://arxiv.org/abs/2003.10715v2
- Date: Fri, 27 Aug 2021 06:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:26:34.258117
- Title: Investigating Software Usage in the Social Sciences: A Knowledge Graph
Approach
- Title(参考訳): 社会科学におけるソフトウェア利用の調査 : 知識グラフによるアプローチ
- Authors: David Schindler, Benjamin Zapilko, Frank Kr\"uger
- Abstract要約: 我々は、社会科学から51,000以上の科学論文から引用されたソフトウェアに関する情報を含む知識グラフ「SoftwareKG」を提示する。
LSTMベースのニューラルネットワークをトレーニングするために、ニューラルネットワークを使用して、科学論文に記載されているソフトウェアを識別した。
我々は、社会科学におけるソフトウェアの役割を評価するために、SoftwareKGをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 0.483420384410068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge about the software used in scientific investigations is necessary
for different reasons, including provenance of the results, measuring software
impact to attribute developers, and bibliometric software citation analysis in
general. Additionally, providing information about whether and how the software
and the source code are available allows an assessment about the state and role
of open source software in science in general. While such analyses can be done
manually, large scale analyses require the application of automated methods of
information extraction and linking. In this paper, we present SoftwareKG - a
knowledge graph that contains information about software mentions from more
than 51,000 scientific articles from the social sciences. A silver standard
corpus, created by a distant and weak supervision approach, and a gold standard
corpus, created by manual annotation, were used to train an LSTM based neural
network to identify software mentions in scientific articles. The model
achieves a recognition rate of .82 F-score in exact matches. As a result, we
identified more than 133,000 software mentions. For entity disambiguation, we
used the public domain knowledge base DBpedia. Furthermore, we linked the
entities of the knowledge graph to other knowledge bases such as the Microsoft
Academic Knowledge Graph, the Software Ontology, and Wikidata. Finally, we
illustrate, how SoftwareKG can be used to assess the role of software in the
social sciences.
- Abstract(参考訳): 科学的調査で使用されるソフトウェアに関する知識は、結果の証明、属性開発者へのソフトウェア影響の測定、書誌的ソフトウェア引用分析など、さまざまな理由から必要である。
さらに、ソフトウェアとソースコードの入手方法に関する情報を提供することで、科学全般におけるオープンソースソフトウェアの現状と役割についての評価が可能になる。
このような分析は手動で行うことができるが、大規模な分析には自動的な情報抽出とリンクの方法が必要となる。
本稿では,社会科学の51,000以上の学術論文から,ソフトウェア言及に関する情報を含む知識グラフであるSoftwareKGを紹介する。
遠隔かつ弱い監視アプローチによって作成された銀の標準コーパスと、手動アノテーションによって作成された金の標準コーパスを使用して、lstmベースのニューラルネットワークを訓練し、科学論文のソフトウェア言及を識別した。
このモデルは正確な一致で.82Fスコアの認識率を達成する。
その結果、133,000以上のソフトウェア言及が特定できた。
エンティティの曖昧さには、パブリックドメイン知識ベースDBpediaを使用しました。
さらに、知識グラフのエンティティを、microsoft academic knowledge graph、software ontology、wikidataといった他の知識ベースに関連付けました。
最後に、社会科学におけるソフトウェアの役割を評価するためにSoftwareKGをどのように利用できるかを説明する。
関連論文リスト
- A Systematic Literature Review on the Use of Machine Learning in Software Engineering [0.0]
本研究は,ソフトウェア工学プロセスに機械学習技術を適用する際の技術の現状を探るため,その目的と研究課題に従って実施された。
レビューでは、ソフトウェア品質保証、ソフトウェア保守、ソフトウェア理解、ソフトウェアドキュメントなど、MLが適用されたソフトウェアエンジニアリングにおける重要な領域を特定している。
論文 参考訳(メタデータ) (2024-06-19T23:04:27Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - SciCat: A Curated Dataset of Scientific Software Repositories [4.77982299447395]
我々は、FLOSS(Free-Libre Open Source Software)プロジェクトの包括的なコレクションであるSciCatデータセットを紹介します。
私たちのアプローチは、World of Codeのデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択することです。
本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。
論文 参考訳(メタデータ) (2023-12-11T13:46:33Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Evaluation of software impact designed for biomedical research: Are we
measuring what's meaningful? [17.645303073710732]
使用状況と影響メトリクスの分析は、開発者がユーザとコミュニティのエンゲージメントを決定するのに役立つ。
これらの分析には、歪んだ、あるいは誤解を招くメトリクスを含む課題がある。
一部のツールは、小規模な聴衆には特に有益かもしれないが、魅力的な典型的な利用指標を持っていないかもしれない。
論文 参考訳(メタデータ) (2023-06-05T21:15:05Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software
Mentions in Scientific Articles [1.335443972283229]
SoMeSciは、科学論文におけるソフトウェア言及の知識グラフである。
高品質なアノテーション(IRR: $kappa=.82$)が含まれており、1367年のPubMed Centralの記事で3756のソフトウェアが言及されている。
論文 参考訳(メタデータ) (2021-08-20T08:53:03Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - CORAL: COde RepresentAtion Learning with Weakly-Supervised Transformers
for Analyzing Data Analysis [33.190021245507445]
ソースコード、特に科学的なソースコードの大規模解析は、データサイエンスのプロセスをよりよく理解する約束を持っている。
本稿では,抽象構文木と周辺自然言語コメントからコードの共同表現を計算するための,弱い教師付きトランスフォーマーベースのアーキテクチャを提案する。
本モデルでは,手軽に手軽に管理できる弱さを生かし,専門家による供給よりも38%の精度向上を実現し,ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-08-28T19:57:49Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。