論文の概要: Large Language Models for Software Engineering: A Reproducibility Crisis
- arxiv url: http://arxiv.org/abs/2512.00651v1
- Date: Sat, 29 Nov 2025 22:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.343746
- Title: Large Language Models for Software Engineering: A Reproducibility Crisis
- Title(参考訳): ソフトウェア工学のための大規模言語モデル:再現性危機
- Authors: Mohammed Latif Siddiq, Arvin Islam-Gomes, Natalie Sekerak, Joanna C. S. Santos,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくソフトウェア工学研究における実践の大規模かつ実証的研究について述べる。
2017年から2025年の間に発行された640の論文を、ソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析しました。
分析の結果、アーティファクトの可用性、環境仕様、バージョニングの厳格さ、ドキュメントの明確さの持続的なギャップが明らかになりました。
- 参考スコア(独自算出の注目度): 4.730658148470817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility is a cornerstone of scientific progress, yet its state in large language model (LLM)-based software engineering (SE) research remains poorly understood. This paper presents the first large-scale, empirical study of reproducibility practices in LLM-for-SE research. We systematically mined and analyzed 640 papers published between 2017 and 2025 across premier software engineering, machine learning, and natural language processing venues, extracting structured metadata from publications, repositories, and documentation. Guided by four research questions, we examine (i) the prevalence of reproducibility smells, (ii) how reproducibility has evolved over time, (iii) whether artifact evaluation badges reliably reflect reproducibility quality, and (iv) how publication venues influence transparency practices. Using a taxonomy of seven smell categories: Code and Execution, Data, Documentation, Environment and Tooling, Versioning, Model, and Access and Legal, we manually annotated all papers and associated artifacts. Our analysis reveals persistent gaps in artifact availability, environment specification, versioning rigor, and documentation clarity, despite modest improvements in recent years and increased adoption of artifact evaluation processes at top SE venues. Notably, we find that badges often signal artifact presence but do not consistently guarantee execution fidelity or long-term reproducibility. Motivated by these findings, we provide actionable recommendations to mitigate reproducibility smells and introduce a Reproducibility Maturity Model (RMM) to move beyond binary artifact certification toward multi-dimensional, progressive evaluation of reproducibility rigor.
- Abstract(参考訳): 再現性は科学的進歩の基盤であるが、大規模言語モデル(LLM)に基づくソフトウェア工学(SE)研究の状況はいまだに理解されていない。
本稿では,LLM-for-SE研究における再現性実践の大規模な実証的研究について紹介する。
2017年から2025年の間に発行された640の論文を、主要なソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析し、出版物、リポジトリ、ドキュメントから構造化されたメタデータを抽出しました。
4つの研究質問に導かれ、我々は調査する
一 再現性臭の有病率
(II)再現性は時間とともにどのように進化してきたか。
三 人工物評価バッジが再現性の品質を確実に反映しているか、及び
(四)出版の場が透明性の実践にどのように影響するか。
Code and Execution, Data, Documentation, Environment and Tooling, Versioning, Model, and Access and Legalという,7つの臭いのカテゴリの分類を使って,すべての論文や関連するアーティファクトを手作業で注釈付けしました。
近年の微妙な改善や,上位SE会場でのアーティファクト評価プロセスの採用の増加にもかかわらず,アーティファクトの可用性,環境仕様,バージョニングの厳密さ,ドキュメントの明確さの持続的なギャップが明らかになった。
特に、バッジはアーティファクトの存在を通知することが多いが、実行の忠実さや長期的な再現性は一貫して保証しない。
これらの結果から,再現性評価の多次元的,段階的な評価に向けて,再現性評価モデル(RMM)を導入し,再現性評価の緩和を図る。
関連論文リスト
- Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文 参考訳(メタデータ) (2025-11-26T13:30:11Z) - Automatic Classification of User Requirements from Online Feedback -- A Replication Study [0.0]
我々は、ユーザレビューから要件分類のための異なるディープラーニングモデルを評価する、以前のNLP4RE研究(ベースライン)を再現する。
公開ソースコードを用いて元の結果を再現し,ベースライン研究の外部的妥当性を高めるのに役立てた。
その結果,ベースラインディープラーニングモデルであるBERTとELMoが外部データセットに優れた性能を示し,GPT-4oは従来のベースライン機械学習モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-07-29T06:52:27Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Lessons in Reproducibility: Insights from NLP Studies in Materials
Science [4.205692673448206]
我々は,これらの研究を観点から理解し,材料情報学の分野に対するその大きな影響を,それらに批判的でなく認識することを目的としている。
本研究は, 両論文とも, 徹底した, 丁寧な, ドキュメント化され, モデル評価のための明確なガイダンスが得られたことを示唆する。
著作権制限が許すトレーニングデータへのアクセス、モデルアーキテクチャとトレーニングプロセスの透明性の向上、ソフトウェア依存バージョン仕様など、改善すべき領域を強調します。
論文 参考訳(メタデータ) (2023-07-28T18:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。