論文の概要: A Methodological Framework for LLM-Based Mining of Software Repositories
- arxiv url: http://arxiv.org/abs/2508.02233v2
- Date: Mon, 11 Aug 2025 12:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.40041
- Title: A Methodological Framework for LLM-Based Mining of Software Repositories
- Title(参考訳): ソフトウェアリポジトリのLCMマイニングのための方法論的フレームワーク
- Authors: Vincenzo De Martino, Joel Castaño, Fabio Palomba, Xavier Franch, Silverio Martínez-Fernández,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学の研究でますます使われている。
人気の高まりにもかかわらず、マイニングソフトウェアリポジトリ(MSR)へのLCMの方法論統合はいまだに理解されていない。
- 参考スコア(独自算出の注目度): 12.504438766461027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in software engineering research, offering new opportunities for automating repository mining tasks. However, despite their growing popularity, the methodological integration of LLMs into Mining Software Repositories (MSR) remains poorly understood. Existing studies tend to focus on specific capabilities or performance benchmarks, providing limited insight into how researchers utilize LLMs across the full research pipeline. To address this gap, we conduct a mixed-method study that combines a rapid review and questionnaire survey in the field of LLM4MSR. We investigate (1) the approaches and (2) the threats that affect the empirical rigor of researchers involved in this field. Our findings reveal 15 methodological approaches, nine main threats, and 25 mitigation strategies. Building on these findings, we present PRIMES 2.0, a refined empirical framework organized into six stages, comprising 23 methodological substeps, each mapped to specific threats and corresponding mitigation strategies, providing prescriptive and adaptive support throughout the lifecycle of LLM-based MSR studies. Our work contributes to establishing a more transparent and reproducible foundation for LLM-based MSR research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学の研究でますます使われており、リポジトリマイニングタスクを自動化する新しい機会を提供する。
しかし、その人気にもかかわらず、LLMのマイニングソフトウェアリポジトリ(MSR)への方法論的な統合はいまだに理解されていない。
既存の研究は特定の能力やパフォーマンスベンチマークに重点を置いており、研究者が完全な研究パイプライン全体にわたってLLMをどのように利用するかについての限られた洞察を与えている。
このギャップに対処するため,LLM4MSRの分野での迅速な調査とアンケートを組み合わせた混合手法による調査を行った。
本研究では,(1)アプローチ,(2)この分野に関わる研究者の経験的厳密性に影響を与える脅威について検討する。
15の方法論的アプローチ,9つの主要な脅威,25の緩和戦略が明らかとなった。
PRIMES 2.0は23段階の方法論的下位段階で構成され,それぞれが特定の脅威と対応緩和戦略にマッピングされ,LCMベースのMSR研究のライフサイクルを通じて,規範的かつ適応的な支援を提供する。
我々の研究は、LLMベースのMSR研究のためのより透明で再現可能な基盤の確立に寄与する。
関連論文リスト
- A Survey of AIOps in the Era of Large Language Models [60.59720351854515]
我々は,2020年1月から2024年12月にかけて発行された183件の研究論文を分析し,4つの重要な研究課題(RQ)に答えた。
現状の進歩と動向を議論し、既存の研究のギャップを識別し、今後の探査に向けて有望な方向性を提案する。
論文 参考訳(メタデータ) (2025-06-23T02:40:16Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - A Framework for Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。
私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。
この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T06:08:57Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Automating Research Synthesis with Domain-Specific Large Language Model Fine-Tuning [0.9110413356918055]
本研究は,SLR(Systematic Literature Reviews)の自動化にLLM(Funture-Tuned Large Language Models)を用いた先駆的研究である。
本研究は,オープンソースLLMとともに最新の微調整手法を採用し,SLRプロセスの最終実行段階を自動化するための実用的で効率的な手法を実証した。
その結果, LLM応答の精度は高く, 既存のPRISMAコンフォーミングSLRの複製により検証された。
論文 参考訳(メタデータ) (2024-04-08T00:08:29Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models for Software Engineering: A Systematic Literature Review [34.12458948051519]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えている。
我々は、2017年1月から2024年1月までの395件の研究論文を選定、分析し、4つの重要な研究質問(RQ)に答える。
これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。
論文 参考訳(メタデータ) (2023-08-21T10:37:49Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。