Fugu-MT 論文翻訳(概要): Identity resolution of software metadata using Large Language Models

論文の概要: Identity resolution of software metadata using Large Language Models

arxiv url: http://arxiv.org/abs/2505.23500v1
Date: Thu, 29 May 2025 14:47:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.910664
Title: Identity resolution of software metadata using Large Language Models
Title（参考訳）: 大規模言語モデルを用いたソフトウェアメタデータの同定
Authors: Eva Martín del Pico, Josep Lluís Gelpí, Salvador Capella-Gutiérrez,
Abstract要約: 本稿では,ソフトウェアメタデータ識別の課題に対する命令調整型大規模言語モデルの評価について述べる。我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Software is an essential component of research. However, little attention has been paid to it compared with that paid to research data. Recently, there has been an increase in efforts to acknowledge and highlight the importance of software in research activities. Structured metadata from platforms like bio.tools, Bioconductor, and Galaxy ToolShed offers valuable insights into research software in the Life Sciences. Although originally intended to support discovery and integration, this metadata can be repurposed for large-scale analysis of software practices. However, its quality and completeness vary across platforms, reflecting diverse documentation practices. To gain a comprehensive view of software development and sustainability, consolidating this metadata is necessary, but requires robust mechanisms to address its heterogeneity and scale. This article presents an evaluation of instruction-tuned large language models for the task of software metadata identity resolution, a critical step in assembling a cohesive collection of research software. Such a collection is the reference component for the Software Observatory at OpenEBench, a platform that aggregates metadata to monitor the FAIRness of research software in the Life Sciences. We benchmarked multiple models against a human-annotated gold standard, examined their behavior on ambiguous cases, and introduced an agreement-based proxy for high-confidence automated decisions. The proxy achieved high precision and statistical robustness, while also highlighting the limitations of current models and the broader challenges of automating semantic judgment in FAIR-aligned software metadata across registries and repositories.
Abstract（参考訳）: ソフトウェアは研究の不可欠な要素である。しかし、研究データと比較すると、ほとんど注意が払われていない。近年,研究活動におけるソフトウェアの重要性を認識し,強調する取り組みが増加している。 Bio.tools、Bioconductor、Galaxy ToolShedなどのプラットフォームからの構造化メタデータは、ライフサイエンスにおける研究ソフトウェアに関する貴重な洞察を提供する。元々は発見と統合をサポートすることを意図していたが、このメタデータはソフトウェアプラクティスの大規模分析のために再利用することができる。しかし、その品質と完全性はプラットフォームによって異なり、多様なドキュメントのプラクティスを反映している。ソフトウェア開発と持続可能性に関する包括的な見解を得るためには、メタデータの統合が必要であるが、その不均一性とスケールに対処するための堅牢なメカニズムが必要である。本稿では,ソフトウェアメタデータの同一性解決のための命令調整型大規模言語モデルの評価について述べる。このようなコレクションは、OpenEBenchのSoftware Observatoryのリファレンスコンポーネントであり、メタデータを集約して、ライフサイエンスにおける研究ソフトウェアのFAIRnessを監視するプラットフォームである。我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。プロキシは高精度で統計的に堅牢性を達成した一方で、現在のモデルの限界と、レジストリとリポジトリをまたいだFAIR準拠のソフトウェアメタデータにおける意味判断を自動化するというより広範な課題を強調した。

関連論文リスト

A Systematic Literature Review on Detecting Software Vulnerabilities with Large Language Models [2.518519330408713]
ソフトウェア工学における大規模言語モデル(LLM)は、ソフトウェア脆弱性検出への関心を喚起している。この分野の急速な発展は、断片化された研究の風景を生み出した。この断片化は、最先端技術の明確な概要を得るのを困難にし、研究を有意義に比較し分類する。
論文参考訳（メタデータ） (2025-07-30T13:17:16Z)
SMECS: A Software Metadata Extraction and Curation Software [0.0]
メタデータは研究ソフトウェアにFAIR原則を採用する上で重要な役割を担い、発見性と再利用性を実現する。我々は,既存のソースからメタデータを抽出するソフトウェアメタデータ抽出・キュレーションソフトウェア(SMECS)と,メタデータキュレーションのためのユーザフレンドリーなインターフェースを融合したソフトウェアメタデータ抽出・キュレーションソフトウェアを開発した。 SMECSはGitHubなどのオンラインリポジトリからメタデータを抽出し、インタラクティブなインターフェースを通じて研究者に提示し、CodeMetaファイルとしてさらなるキュレーションとエクスポートを行う。
論文参考訳（メタデータ） (2025-07-24T07:53:46Z)
A Serverless Architecture for Real-Time Stock Analysis using Large Language Models: An Iterative Development and Debugging Case Study [0.0]
本稿では,リアルタイムストック分析のための新しいサーバレスシステムの設計,実装,反復デバッグについて述べる。初期の概念から堅牢でイベント駆動のパイプラインまで、システムのアーキテクチャ的進化について詳述する。最終的なアーキテクチャは、ほぼゼロのコストで動作し、個人が高度なAIベースの金融ツールを構築するための実行可能なモデルを示す。
論文参考訳（メタデータ） (2025-07-13T11:29:51Z)
BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。 BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文参考訳（メタデータ） (2025-05-12T08:54:07Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。本稿では,脆弱性検出におけるLSMの詳細な調査を行う。言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文参考訳（メタデータ） (2025-02-10T21:33:38Z)
Beyond Static Tools: Evaluating Large Language Models for Cryptographic Misuse Detection [0.30693357740321775]
GPT 4-o-miniは、CryptoAPIとMASCデータセットの最先端の静的解析ツールを上回る。本研究では, 静的解析の長所と短所をLCM駆動法と比較した。
論文参考訳（メタデータ） (2024-11-14T19:33:08Z)
DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文参考訳（メタデータ） (2024-09-12T02:08:00Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
The Future of Scientific Publishing: Automated Article Generation [0.0]
本研究では,Python コードからの学術論文の自動生成を目的とした,大規模言語モデル(LLM)プロンプトを活用した新しいソフトウェアツールを提案する。 Pythonは基本的な概念実証として機能するが、基盤となる方法論とフレームワークは、さまざまなGitHubリポジトリにまたがる適応性を示している。この開発は高度な言語モデルエージェントに頼らずに達成され、一貫性と総合的な学術的コンテンツの自動生成において高い忠実性を確保した。
論文参考訳（メタデータ） (2024-04-11T16:47:02Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models [11.388023221294686]
本研究では,ソフトウェア工学のタスクにおいて,小さな言語モデル (sLLM) を微調整したラベル付きデータ不足に対処する際の大規模言語モデル (bLLM) について検討する。 5つの確立されたデータセットを用いて、ゼロショットと少数ショットのシナリオで3つのオープンソースのbLLMを評価する。実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
論文参考訳（メタデータ） (2023-10-17T09:53:03Z)
A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。 DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文参考訳（メタデータ） (2023-06-18T19:01:08Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。