論文の概要: Identity resolution of software metadata using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23500v1
- Date: Thu, 29 May 2025 14:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.910664
- Title: Identity resolution of software metadata using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたソフトウェアメタデータの同定
- Authors: Eva Martín del Pico, Josep Lluís Gelpí, Salvador Capella-Gutiérrez,
- Abstract要約: 本稿では,ソフトウェアメタデータ識別の課題に対する命令調整型大規模言語モデルの評価について述べる。
我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Software is an essential component of research. However, little attention has been paid to it compared with that paid to research data. Recently, there has been an increase in efforts to acknowledge and highlight the importance of software in research activities. Structured metadata from platforms like bio.tools, Bioconductor, and Galaxy ToolShed offers valuable insights into research software in the Life Sciences. Although originally intended to support discovery and integration, this metadata can be repurposed for large-scale analysis of software practices. However, its quality and completeness vary across platforms, reflecting diverse documentation practices. To gain a comprehensive view of software development and sustainability, consolidating this metadata is necessary, but requires robust mechanisms to address its heterogeneity and scale. This article presents an evaluation of instruction-tuned large language models for the task of software metadata identity resolution, a critical step in assembling a cohesive collection of research software. Such a collection is the reference component for the Software Observatory at OpenEBench, a platform that aggregates metadata to monitor the FAIRness of research software in the Life Sciences. We benchmarked multiple models against a human-annotated gold standard, examined their behavior on ambiguous cases, and introduced an agreement-based proxy for high-confidence automated decisions. The proxy achieved high precision and statistical robustness, while also highlighting the limitations of current models and the broader challenges of automating semantic judgment in FAIR-aligned software metadata across registries and repositories.
- Abstract(参考訳): ソフトウェアは研究の不可欠な要素である。
しかし、研究データと比較すると、ほとんど注意が払われていない。
近年,研究活動におけるソフトウェアの重要性を認識し,強調する取り組みが増加している。
Bio.tools、Bioconductor、Galaxy ToolShedなどのプラットフォームからの構造化メタデータは、ライフサイエンスにおける研究ソフトウェアに関する貴重な洞察を提供する。
元々は発見と統合をサポートすることを意図していたが、このメタデータはソフトウェアプラクティスの大規模分析のために再利用することができる。
しかし、その品質と完全性はプラットフォームによって異なり、多様なドキュメントのプラクティスを反映している。
ソフトウェア開発と持続可能性に関する包括的な見解を得るためには、メタデータの統合が必要であるが、その不均一性とスケールに対処するための堅牢なメカニズムが必要である。
本稿では,ソフトウェアメタデータの同一性解決のための命令調整型大規模言語モデルの評価について述べる。
このようなコレクションは、OpenEBenchのSoftware Observatoryのリファレンスコンポーネントであり、メタデータを集約して、ライフサイエンスにおける研究ソフトウェアのFAIRnessを監視するプラットフォームである。
我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。
プロキシは高精度で統計的に堅牢性を達成した一方で、現在のモデルの限界と、レジストリとリポジトリをまたいだFAIR準拠のソフトウェアメタデータにおける意味判断を自動化するというより広範な課題を強調した。
関連論文リスト
- BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Beyond Static Tools: Evaluating Large Language Models for Cryptographic Misuse Detection [0.30693357740321775]
GPT 4-o-miniは、CryptoAPIとMASCデータセットの最先端の静的解析ツールを上回る。
本研究では, 静的解析の長所と短所をLCM駆動法と比較した。
論文 参考訳(メタデータ) (2024-11-14T19:33:08Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - The Future of Scientific Publishing: Automated Article Generation [0.0]
本研究では,Python コードからの学術論文の自動生成を目的とした,大規模言語モデル(LLM)プロンプトを活用した新しいソフトウェアツールを提案する。
Pythonは基本的な概念実証として機能するが、基盤となる方法論とフレームワークは、さまざまなGitHubリポジトリにまたがる適応性を示している。
この開発は高度な言語モデルエージェントに頼らずに達成され、一貫性と総合的な学術的コンテンツの自動生成において高い忠実性を確保した。
論文 参考訳(メタデータ) (2024-04-11T16:47:02Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models [11.388023221294686]
本研究では,ソフトウェア工学のタスクにおいて,小さな言語モデル (sLLM) を微調整したラベル付きデータ不足に対処する際の大規模言語モデル (bLLM) について検討する。
5つの確立されたデータセットを用いて、ゼロショットと少数ショットのシナリオで3つのオープンソースのbLLMを評価する。
実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
論文 参考訳(メタデータ) (2023-10-17T09:53:03Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。