論文の概要: Don't mention it: An approach to assess challenges to using software
mentions for citation and discoverability research
- arxiv url: http://arxiv.org/abs/2402.14602v1
- Date: Thu, 22 Feb 2024 14:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:54:35.191962
- Title: Don't mention it: An approach to assess challenges to using software
mentions for citation and discoverability research
- Title(参考訳): 言うな: 引用と発見可能性の研究にソフトウェア言及を使用する際の課題を評価するアプローチ
- Authors: Stephan Druskat, Neil P. Chue Hong, Sammie Buzzard, Olexandr
Konovalov, Patrick Kornek
- Abstract要約: 本研究では,このようなデータセットのユーザビリティを研究ソフトウェア研究のために評価する手法を提案する。
1つのデータセットは、前述のソフトウェアへのリンクをまったく提供しないが、もう1つのデータセットは、定量的研究の取り組みを妨げることができる。
ソフトウェア参照データセットを扱う際の最大の課題と根底にある問題は、ソフトウェア引用のまだ最適なプラクティスである。
- 参考スコア(独自算出の注目度): 0.3268055538225029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Datasets collecting software mentions from scholarly publications can
potentially be used for research into the software that has been used in the
published research, as well as into the practice of software citation.
Recently, new software mention datasets with different characteristics have
been published. We present an approach to assess the usability of such datasets
for research on research software. Our approach includes sampling and data
preparation, manual annotation for quality and mention characteristics, and
annotation analysis. We applied it to two software mention datasets for
evaluation based on qualitative observation. Doing this, we were able to find
challenges to working with the selected datasets to do research. Main issues
refer to the structure of the dataset, the quality of the extracted mentions
(54% and 23% of mentions respectively are not to software), and software
accessibility. While one dataset does not provide links to mentioned software
at all, the other does so in a way that can impede quantitative research
endeavors: (1) Links may come from different sources and each point to
different software for the same mention. (2) The quality of the automatically
retrieved links is generally poor (in our sample, 65.4% link the wrong
software). (3) Links exist only for a small subset (in our sample, 20.5%) of
mentions, which may lead to skewed or disproportionate samples. However, the
greatest challenge and underlying issue in working with software mention
datasets is the still suboptimal practice of software citation: Software should
not be mentioned, it should be cited following the software citation
principles.
- Abstract(参考訳): 学術出版物からのソフトウェア言及を収集するデータセットは、出版された研究で使われたソフトウェアの研究や、ソフトウェア引用の実践に使用できる可能性がある。
近年,異なる特徴を持つデータセットに言及するソフトウェアが公開された。
本研究では,このようなデータセットのユーザビリティを評価する手法を提案する。
我々のアプローチには、サンプリングとデータ準備、品質と参照特性のマニュアルアノテーション、アノテーション分析が含まれる。
質的観察に基づく評価のために,2つのソフトウェア参照データセットに適用した。
これにより、選択したデータセットで研究を行う上での課題を見つけることができました。
主な問題は、データセットの構造、抽出された言及の質(それぞれ54%と23%はソフトウェアではない)、およびソフトウェアアクセシビリティである。
1つのデータセットは、言及されているソフトウェアへのリンクを提供していないが、もう1つのデータセットは、定量的研究の取り組みを妨げることができる方法でリンクを提供する。
2) 自動検索されたリンクの品質は概して貧弱である(サンプルでは65.4%が間違ったソフトウェアをリンクしている)。
(3) リンクは、小さなサブセット(このサンプルでは20.5%)にのみ存在し、歪んだり不均等なサンプルにつながる可能性がある。
しかしながら、ソフトウェアに言及するデータセットを扱う際の最大の課題と根本的な問題は、まだ最適ではないソフトウェア引用のプラクティスである。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Towards a Quality Indicator for Research Data publications and Research
Software publications -- A vision from the Helmholtz Association [0.24848203755267903]
研究データや研究ソフトウェアの品質を評価・評価するプロセスはまだ確立されていない。
Task Group Quality Indicators for Data and Software Publicationsは現在、研究データおよび研究ソフトウェア出版のための品質指標を開発している。
論文 参考訳(メタデータ) (2024-01-16T20:00:27Z) - TRIAD: Automated Traceability Recovery based on Biterm-enhanced
Deduction of Transitive Links among Artifacts [53.92293118080274]
トレーサビリティにより、ステークホルダは、ソフトウェアライフサイクル全体で導入されたソフトウェアアーティファクト間のトレースリンクを抽出し、理解することができます。
ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。
論文 参考訳(メタデータ) (2023-12-28T06:44:24Z) - How do software citation formats evolve over time? A longitudinal
analysis of R programming language packages [12.082972614614413]
本研究では2021年と2022年に収集された全Rパッケージの引用形式の時系列データセットを比較し,分析する。
引用の背景となるさまざまなドキュメントタイプと、引用形式におけるメタデータ要素が時間とともに変化したかを検討する。
論文 参考訳(メタデータ) (2023-07-17T09:18:57Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Semantically-enhanced Topic Recommendation System for Software Projects [2.0625936401496237]
ソフトウェアリポジトリに関連するトピックをタグ付けすることで、さまざまなダウンストリームタスクを容易にすることができる。
ソフトウェアプロジェクトにトピックを推奨する作業は行われているが、これらのトピック間のセマンティックな関係は、これまで利用されていない。
トピック間のセマンティックな関係を組み込んだ,ソフトウェアプロジェクトへのタグ付けのための2つの推奨モデルを提案する。
論文 参考訳(メタデータ) (2022-05-31T19:54:42Z) - SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software
Mentions in Scientific Articles [1.335443972283229]
SoMeSciは、科学論文におけるソフトウェア言及の知識グラフである。
高品質なアノテーション(IRR: $kappa=.82$)が含まれており、1367年のPubMed Centralの記事で3756のソフトウェアが言及されている。
論文 参考訳(メタデータ) (2021-08-20T08:53:03Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。