論文の概要: Large Language Models for Software Engineering: A Reproducibility Crisis
- arxiv url: http://arxiv.org/abs/2512.00651v1
- Date: Sat, 29 Nov 2025 22:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.343746
- Title: Large Language Models for Software Engineering: A Reproducibility Crisis
- Title(参考訳): ソフトウェア工学のための大規模言語モデル:再現性危機
- Authors: Mohammed Latif Siddiq, Arvin Islam-Gomes, Natalie Sekerak, Joanna C. S. Santos,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくソフトウェア工学研究における実践の大規模かつ実証的研究について述べる。
2017年から2025年の間に発行された640の論文を、ソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析しました。
分析の結果、アーティファクトの可用性、環境仕様、バージョニングの厳格さ、ドキュメントの明確さの持続的なギャップが明らかになりました。
- 参考スコア(独自算出の注目度): 4.730658148470817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility is a cornerstone of scientific progress, yet its state in large language model (LLM)-based software engineering (SE) research remains poorly understood. This paper presents the first large-scale, empirical study of reproducibility practices in LLM-for-SE research. We systematically mined and analyzed 640 papers published between 2017 and 2025 across premier software engineering, machine learning, and natural language processing venues, extracting structured metadata from publications, repositories, and documentation. Guided by four research questions, we examine (i) the prevalence of reproducibility smells, (ii) how reproducibility has evolved over time, (iii) whether artifact evaluation badges reliably reflect reproducibility quality, and (iv) how publication venues influence transparency practices. Using a taxonomy of seven smell categories: Code and Execution, Data, Documentation, Environment and Tooling, Versioning, Model, and Access and Legal, we manually annotated all papers and associated artifacts. Our analysis reveals persistent gaps in artifact availability, environment specification, versioning rigor, and documentation clarity, despite modest improvements in recent years and increased adoption of artifact evaluation processes at top SE venues. Notably, we find that badges often signal artifact presence but do not consistently guarantee execution fidelity or long-term reproducibility. Motivated by these findings, we provide actionable recommendations to mitigate reproducibility smells and introduce a Reproducibility Maturity Model (RMM) to move beyond binary artifact certification toward multi-dimensional, progressive evaluation of reproducibility rigor.
- Abstract(参考訳): 再現性は科学的進歩の基盤であるが、大規模言語モデル(LLM)に基づくソフトウェア工学(SE)研究の状況はいまだに理解されていない。
本稿では,LLM-for-SE研究における再現性実践の大規模な実証的研究について紹介する。
2017年から2025年の間に発行された640の論文を、主要なソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析し、出版物、リポジトリ、ドキュメントから構造化されたメタデータを抽出しました。
4つの研究質問に導かれ、我々は調査する
一 再現性臭の有病率
(II)再現性は時間とともにどのように進化してきたか。
三 人工物評価バッジが再現性の品質を確実に反映しているか、及び
(四)出版の場が透明性の実践にどのように影響するか。
Code and Execution, Data, Documentation, Environment and Tooling, Versioning, Model, and Access and Legalという,7つの臭いのカテゴリの分類を使って,すべての論文や関連するアーティファクトを手作業で注釈付けしました。
近年の微妙な改善や,上位SE会場でのアーティファクト評価プロセスの採用の増加にもかかわらず,アーティファクトの可用性,環境仕様,バージョニングの厳密さ,ドキュメントの明確さの持続的なギャップが明らかになった。
特に、バッジはアーティファクトの存在を通知することが多いが、実行の忠実さや長期的な再現性は一貫して保証しない。
これらの結果から,再現性評価の多次元的,段階的な評価に向けて,再現性評価モデル(RMM)を導入し,再現性評価の緩和を図る。
関連論文リスト
- Assessing Reproducibility in Evolutionary Computation: A Case Study using Human- and LLM-based Assessment [2.0365636651755263]
本稿では,10年間にわたる進化計算会議(Evolutionary Computation Conference)のY Combinatorial Optimization and Metaheuristics Trackで発表された論文の実践について検討する。
構造化チェックリストを導入し、選択したコーパスの体系的手動評価を通じて適用する。
さらに,紙テキストや関連コードからの信号を自動的に評価するシステムであるRECAP(REproducibility Checklist Automation Pipeline)を提案する。
論文 参考訳(メタデータ) (2026-02-05T08:32:29Z) - Reporting LLM Prompting in Automated Software Engineering: A Guideline Based on Current Practices and Expectations [39.62249759297524]
大規模言語モデルは、ソフトウェアエンジニアリングタスクの自動化にますます使われています。
これらのモデルは自然言語のプロンプトを通じて導かれるため、システムパフォーマンスと振る舞いにおいて、迅速なエンジニアリングが重要な要素となる。
SE研究での役割が増大しているにもかかわらず、プロンプトに関連する決定は、体系的または透明な方法で文書化されることは滅多にない。
論文 参考訳(メタデータ) (2026-01-05T10:01:20Z) - Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文 参考訳(メタデータ) (2025-11-26T13:30:11Z) - Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation [61.47019392413271]
WinnowRAGは、価値あるコンテンツを保持しながら、ノイズの多いドキュメントを体系的にフィルタリングするように設計されている。
WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。
ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
論文 参考訳(メタデータ) (2025-11-01T20:08:13Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Automatic Classification of User Requirements from Online Feedback -- A Replication Study [0.0]
我々は、ユーザレビューから要件分類のための異なるディープラーニングモデルを評価する、以前のNLP4RE研究(ベースライン)を再現する。
公開ソースコードを用いて元の結果を再現し,ベースライン研究の外部的妥当性を高めるのに役立てた。
その結果,ベースラインディープラーニングモデルであるBERTとELMoが外部データセットに優れた性能を示し,GPT-4oは従来のベースライン機械学習モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-07-29T06:52:27Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Lessons in Reproducibility: Insights from NLP Studies in Materials
Science [4.205692673448206]
我々は,これらの研究を観点から理解し,材料情報学の分野に対するその大きな影響を,それらに批判的でなく認識することを目的としている。
本研究は, 両論文とも, 徹底した, 丁寧な, ドキュメント化され, モデル評価のための明確なガイダンスが得られたことを示唆する。
著作権制限が許すトレーニングデータへのアクセス、モデルアーキテクチャとトレーニングプロセスの透明性の向上、ソフトウェア依存バージョン仕様など、改善すべき領域を強調します。
論文 参考訳(メタデータ) (2023-07-28T18:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。