論文の概要: Reflections on the Reproducibility of Commercial LLM Performance in Empirical Software Engineering Studies
- arxiv url: http://arxiv.org/abs/2510.25506v1
- Date: Wed, 29 Oct 2025 13:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.588888
- Title: Reflections on the Reproducibility of Commercial LLM Performance in Empirical Software Engineering Studies
- Title(参考訳): 経験的ソフトウェア工学研究における商業LLM性能の再現性に関する考察
- Authors: Florian Angermeir, Maximilian Amougou, Mark Kreitz, Andreas Bauer, Matthias Linhuber, Davide Fucci, Fabiola Moyón C., Daniel Mendez, Tony Gorschek,
- Abstract要約: ICSE 2024 と 2024 で発表された LLM 中心研究に関する86 項目について検討した。
86の論文のうち18は研究成果を提供し、OpenAIモデルを使用した。
18つの研究のうち、5つの研究は再生に適しており、5つの研究のどれにも当てはまらないが、結果を完全に再現することができた。
- 参考スコア(独自算出の注目度): 3.053547151063031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have gained remarkable interest in industry and academia. The increasing interest in LLMs in academia is also reflected in the number of publications on this topic over the last years. For instance, alone 78 of the around 425 publications at ICSE 2024 performed experiments with LLMs. Conducting empirical studies with LLMs remains challenging and raises questions on how to achieve reproducible results, for both other researchers and practitioners. One important step towards excelling in empirical research on LLMs and their application is to first understand to what extent current research results are eventually reproducible and what factors may impede reproducibility. This investigation is within the scope of our work. We contribute an analysis of the reproducibility of LLM-centric studies, provide insights into the factors impeding reproducibility, and discuss suggestions on how to improve the current state. In particular, we studied the 86 articles describing LLM-centric studies, published at ICSE 2024 and ASE 2024. Of the 86 articles, 18 provided research artefacts and used OpenAI models. We attempted to replicate those 18 studies. Of the 18 studies, only five were fit for reproduction. For none of the five studies, we were able to fully reproduce the results. Two studies seemed to be partially reproducible, and three studies did not seem to be reproducible. Our results highlight not only the need for stricter research artefact evaluations but also for more robust study designs to ensure the reproducible value of future publications.
- Abstract(参考訳): 大規模言語モデルは、産業とアカデミックに顕著な関心を集めている。
学界におけるLSMへの関心の高まりは、過去数年間にこの話題に関する出版物の数にも反映されている。
例えば、ICSE 2024で約425冊の出版物のうち78冊がLSMを用いて実験を行った。
LLMで実験的な研究を行うことは依然として困難であり、他の研究者と実践者の両方にとって再現可能な結果を達成する方法について疑問を投げかける。
LLMに関する経験的研究の卓越化に向けた重要なステップの1つは、現在の研究成果が最終的に再現可能であるか、どの要因が再現可能性を妨げるのかを最初に理解することである。
この調査は我々の研究の範囲内にある。
我々は,LLMを中心とした研究の再現性の分析に寄与し,再現性に影響を及ぼす要因についての知見を提供し,現状を改善するための提案について議論する。
特に, ICSE 2024およびASE 2024で発表されたLSMを中心にした86の論文について検討した。
86の論文のうち18は研究成果を提供し、OpenAIモデルを使用した。
私たちはこれらの18の研究を再現しようと試みた。
18の研究のうち、5つだけが再生に適していた。
5つの研究のうちどれも、結果を完全に再現することができませんでした。
2つの研究は部分的に再現可能であるようで、3つの研究は再現可能であるようには見えなかった。
研究成果は, より厳密な研究成果評価の必要性だけでなく, 今後の出版物の再現可能な価値を確保するために, より堅牢な研究設計の必要性も浮き彫りにしている。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - A Survey of AIOps in the Era of Large Language Models [60.59720351854515]
我々は,2020年1月から2024年12月にかけて発行された183件の研究論文を分析し,4つの重要な研究課題(RQ)に答えた。
現状の進歩と動向を議論し、既存の研究のギャップを識別し、今後の探査に向けて有望な方向性を提案する。
論文 参考訳(メタデータ) (2025-06-23T02:40:16Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [66.87201770167012]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - LLM4SR: A Survey on Large Language Models for Scientific Research [15.533076347375207]
大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。
本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
論文 参考訳(メタデータ) (2025-01-08T06:44:02Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z) - Using Large Language Models to Create AI Personas for Replication, Generalization and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings [0.3749861135832072]
本稿では,大規模言語モデル(LLM)が,マーケティングにおけるメッセージ効果に関する論文の正確な複製と一般化を高速化する可能性について分析する。
LLMはJournal of Marketingに掲載された45の最近の研究を含む14の論文から133の実験結果を複製して試験された。
LLMレプリケーションは、元のメインエフェクトの76%(111点中84点)の再現に成功した。
論文 参考訳(メタデータ) (2024-08-28T18:14:39Z) - Awes, Laws, and Flaws From Today's LLM Research [0.0]
我々は,2020年から2024年の間に2000件を超える研究成果を,良質な研究とされる基準に基づいて評価した。
倫理的否定者の減少、評価者としてのLLMの台頭、人的評価を生かさないLLM推論能力の主張の増加など、さまざまな傾向を見出した。
論文 参考訳(メタデータ) (2024-08-27T21:19:37Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - A Bibliometric Review of Large Language Models Research from 2017 to
2023 [1.4190701053683017]
LLM(Large Language Model)は、自然言語処理(NLP)タスクにおいて優れた性能を示す言語モデルである。
本稿は,LLM研究の現在の姿を知るための研究者,実践者,政策立案者のロードマップとして機能する。
論文 参考訳(メタデータ) (2023-04-03T21:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。