論文の概要: Empirical Evaluation of AI-Assisted Software Package Selection: A Knowledge Graph Approach
- arxiv url: http://arxiv.org/abs/2508.05693v1
- Date: Wed, 06 Aug 2025 13:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.936137
- Title: Empirical Evaluation of AI-Assisted Software Package Selection: A Knowledge Graph Approach
- Title(参考訳): AI支援ソフトウェアパッケージ選択の実証評価:知識グラフアプローチ
- Authors: Siamak Farshidi, Amir Saberhabibi, Behbod Eskafi, Niloofar Nikfarjam, Sadegh Eskandari, Slinger Jansen, Michel Chaudron, Bedir Tekinerdogan,
- Abstract要約: 本研究は,ソフトウェアパッケージ選択をMCDM問題として定式化する。
データパイプラインは、ソフトウェアメタデータ、利用トレンド、脆弱性情報、開発者の感情を継続的に収集し、統合する。
システムは、大きな言語モデルを使用して、ユーザの意図を解釈し、モデルをクエリして、コンテキスト的に適切なパッケージを識別する。
- 参考スコア(独自算出の注目度): 4.100870096741918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting third-party software packages in open-source ecosystems like Python is challenging due to the large number of alternatives and limited transparent evidence for comparison. Generative AI tools are increasingly used in development workflows, but their suggestions often overlook dependency evaluation, emphasize popularity over suitability, and lack reproducibility. This creates risks for projects that require transparency, long-term reliability, maintainability, and informed architectural decisions. This study formulates software package selection as a Multi-Criteria Decision-Making (MCDM) problem and proposes a data-driven framework for technology evaluation. Automated data pipelines continuously collect and integrate software metadata, usage trends, vulnerability information, and developer sentiment from GitHub, PyPI, and Stack Overflow. These data are structured into a decision model representing relationships among packages, domain features, and quality attributes. The framework is implemented in PySelect, a decision support system that uses large language models to interpret user intent and query the model to identify contextually appropriate packages. The approach is evaluated using 798,669 Python scripts from 16,887 GitHub repositories and a user study based on the Technology Acceptance Model. Results show high data extraction precision, improved recommendation quality over generative AI baselines, and positive user evaluations of usefulness and ease of use. This work introduces a scalable, interpretable, and reproducible framework that supports evidence-based software selection using MCDM principles, empirical data, and AI-assisted intent modeling.
- Abstract(参考訳): Pythonのようなオープンソースのエコシステムでサードパーティのソフトウェアパッケージを選択することは、多くの代替案と、比較のための限られた透明な証拠のために難しい。
ジェネレーティブなAIツールは開発ワークフローでの利用が増えているが、その提案は依存関係の評価を見落とし、適合性よりも人気を強調し、再現性に欠ける。
これにより、透明性、長期的な信頼性、保守性、アーキテクチャ上の決定が求められるプロジェクトのリスクが生じる。
本研究では,MCDM(Multi-Criteria Decision-Making)問題としてソフトウェアパッケージの選択を定式化し,技術評価のためのデータ駆動型フレームワークを提案する。
自動データパイプラインは、ソフトウェアメタデータ、使用傾向、脆弱性情報、GitHub、PyPI、Stack Overflowからの開発者感情を継続的に収集、統合する。
これらのデータは、パッケージ、ドメインの特徴、品質属性間の関係を表す決定モデルに構造化されます。
フレームワークはPySelectで実装されている。これは、大きな言語モデルを使用してユーザの意図を解釈し、モデルをクエリして、コンテキスト的に適切なパッケージを識別する、意思決定支援システムである。
このアプローチは16,887のGitHubリポジトリの798,669のPythonスクリプトと、Technology Acceptance Modelに基づくユーザスタディを使って評価されている。
その結果、データ抽出精度が高く、生成AIベースラインよりも推奨品質が向上し、有用性と使いやすさの肯定的なユーザ評価が得られた。
この研究は、MCDM原則、実証データ、AI支援インテントモデリングを使用したエビデンスベースのソフトウェア選択をサポートする、スケーラブルで解釈可能な、再現可能なフレームワークを導入している。
関連論文リスト
- Identity resolution of software metadata using Large Language Models [0.0]
本稿では,ソフトウェアメタデータ識別の課題に対する命令調整型大規模言語モデルの評価について述べる。
我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。
論文 参考訳(メタデータ) (2025-05-29T14:47:31Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。
仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。
これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文 参考訳(メタデータ) (2025-03-06T09:44:18Z) - xai_evals : A Framework for Evaluating Post-Hoc Local Explanation Methods [1.747623282473278]
xai_evalsは、説明メソッドの生成、ベンチマーク、評価のためのフレームワークを提供する。
SHAP、LIME、Grad-CAM、Integrated Gradients (IG)、Backtraceといった一般的なテクニックを統合している。
xai_evalsは、機械学習モデルの解釈可能性を高め、透明性とAIシステムの信頼を促進する。
論文 参考訳(メタデータ) (2025-02-05T09:17:48Z) - LatteReview: A Multi-Agent Framework for Systematic Review Automation Using Large Language Models [0.0]
LatteReviewはPythonベースのフレームワークで、大規模言語モデル(LLM)とマルチエージェントシステムを活用して、体系的なレビュープロセスの重要な要素を自動化する。
このフレームワークは、外部コンテキストを組み込むRetrieval-Augmented Generation (RAG)、マルチモーダルレビュー、構造化された入力と出力に対するPydanticベースの検証、大規模データセットを扱う非同期プログラミングなどの機能をサポートしている。
論文 参考訳(メタデータ) (2025-01-05T17:53:00Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - DIETERpy: a Python framework for The Dispatch and Investment Evaluation
Tool with Endogenous Renewables [62.997667081978825]
DIETERはオープンソースの電力セクターモデルであり、可変再生可能エネルギー源の非常に高いシェアで将来の設定を分析するように設計されている。
システム全体のコストを最小化し、様々な世代の固定および可変コスト、柔軟性、セクター結合オプションを含む。
我々は、GAMS(General Algebraic Modeling System)で記述された既存のモデルバージョンの上に構築されたDIETERpyを紹介し、それをPythonフレームワークで強化する。
論文 参考訳(メタデータ) (2020-10-02T09:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。