論文の概要: Can GPT-4 Replicate Empirical Software Engineering Research?
- arxiv url: http://arxiv.org/abs/2310.01727v1
- Date: Tue, 3 Oct 2023 01:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:07:45.666343
- Title: Can GPT-4 Replicate Empirical Software Engineering Research?
- Title(参考訳): GPT-4は経験的ソフトウェア工学研究を再現できるか?
- Authors: Jenny T. Liang, Carmen Badea, Christian Bird, Robert DeLine, Denae
Ford, Nicole Forsgren, Thomas Zimmermann
- Abstract要約: 実運用システムに関する実証的なソフトウェアエンジニアリング研究は、実践者や研究者にとっても、ソフトウェアエンジニアリングプロセスの理解を深めている。
しかし、生産システムのごく一部しか研究されておらず、この研究の影響を限定している。
GPT-4のような大きな言語モデル(LLM)は、ソフトウェア工学と科学関連のタスクの両方に取り組むことを約束しているので、これらのモデルは経験的ソフトウェア工学の研究を民主化するのに役立ちます。
- 参考スコア(独自算出の注目度): 21.937875363458673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical software engineering research on production systems has brought
forth a better understanding of the software engineering process for
practitioners and researchers alike. However, only a small subset of production
systems is studied, limiting the impact of this research. While software
engineering practitioners benefit from replicating research on their own data,
this poses its own set of challenges, since performing replications requires a
deep understanding of research methodologies and subtle nuances in software
engineering data. Given that large language models (LLMs), such as GPT-4, show
promise in tackling both software engineering- and science-related tasks, these
models could help democratize empirical software engineering research.
In this paper, we examine LLMs' abilities to perform replications of
empirical software engineering research on new data. We specifically study
their ability to surface assumptions made in empirical software engineering
research methodologies, as well as their ability to plan and generate code for
analysis pipelines on seven empirical software engineering papers. We perform a
user study with 14 participants with software engineering research expertise,
who evaluate GPT-4-generated assumptions and analysis plans (i.e., a list of
module specifications) from the papers. We find that GPT-4 is able to surface
correct assumptions, but struggle to generate ones that reflect common
knowledge about software engineering data. In a manual analysis of the
generated code, we find that the GPT-4-generated code contains the correct
high-level logic, given a subset of the methodology. However, the code contains
many small implementation-level errors, reflecting a lack of software
engineering knowledge. Our findings have implications for leveraging LLMs for
software engineering research as well as practitioner data scientists in
software teams.
- Abstract(参考訳): 実運用システムに関する実証的ソフトウェアエンジニアリング研究は、実践者や研究者にとってもソフトウェアエンジニアリングプロセスの理解を深めた。
しかし、生産システムのごく一部しか研究されておらず、この研究の影響を限定している。
ソフトウェアエンジニアリングの実践者は、自身のデータに関する研究を複製することの恩恵を受けるが、複製を行うには、ソフトウェアエンジニアリングデータに研究方法論と微妙なニュアンスを深く理解する必要があるため、独自の課題が生じる。
GPT-4のような大きな言語モデル(LLM)は、ソフトウェア工学と科学関連のタスクの両方に取り組むことを約束しているので、これらのモデルは経験的ソフトウェア工学の研究を民主化するのに役立ちます。
本稿では,新しいデータに対する実証的ソフトウェア工学研究の複製を行うllmsの能力について検討する。
具体的には,実証的ソフトウェア工学研究方法論の仮定を提示する能力と,7つの実証的ソフトウェア工学論文で解析パイプラインのコード計画と生成能力について検討した。
我々は,ソフトウェア工学研究の専門知識を持つ14人の参加者を対象に,GPT-4生成の仮定と分析計画(モジュール仕様のリスト)を論文から評価する。
GPT-4は正しい仮定を提示できるが、ソフトウェア工学データに関する一般的な知識を反映した仮説を生成するのに苦労している。
生成したコードを手動で解析した結果,GPT-4生成コードは方法論のサブセットを前提として,正しい高レベル論理を含むことがわかった。
しかし、このコードには、ソフトウェア工学の知識の欠如を反映した、実装レベルの小さなエラーが多数含まれている。
我々の発見は、ソフトウェアエンジニアリング研究やソフトウェアチームの実践的データサイエンティストにLLMを活用することに意味がある。
関連論文リスト
- A Systematic Literature Review on the Use of Machine Learning in Software Engineering [0.0]
本研究は,ソフトウェア工学プロセスに機械学習技術を適用する際の技術の現状を探るため,その目的と研究課題に従って実施された。
レビューでは、ソフトウェア品質保証、ソフトウェア保守、ソフトウェア理解、ソフトウェアドキュメントなど、MLが適用されたソフトウェアエンジニアリングにおける重要な領域を特定している。
論文 参考訳(メタデータ) (2024-06-19T23:04:27Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Morescient GAI for Software Engineering [2.4861619769660637]
ソフトウェアエンジニアリングタスクにジェネレーティブAI(GAI)を使用することは、ソフトウェアエンジニアリング研究の最も急速に拡大している分野の1つである。
我々は,オープンサイエンスの原則に従って,そのような「科学的」なGAIモデルをいかに設計し,発展し,普及させるか,というビジョンを提示する。
論文 参考訳(メタデータ) (2024-06-07T07:38:33Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Requirements Engineering for Research Software: A Vision [2.2217676348694213]
ほとんどの研究者は、科学的な目的のためにソフトウェアを作成するが、ソフトウェア工学では訓練されていない。
研究ソフトウェアは、しばしば厳密なプロセスに従うことなくアドホックに開発される。
本稿では,研究者が研究ソフトウェアに必要な要件を抽出し,文書化し,分析する方法について述べる。
論文 参考訳(メタデータ) (2024-05-13T14:25:01Z) - GPT-4 as an interface between researchers and computational software:
improving usability and reproducibility [44.99833362998488]
分子動力学シミュレーションに広く用いられているソフトウェアに焦点をあてる。
英語のタスク記述から GPT-4 で生成された入力ファイルの有用性を定量化する。
GPT-4は,比較的簡単なタスクに対して,正しい入力ファイルを生成することができる。
さらに、GPT-4の入力ファイルからの計算タスクの記述は、ステップバイステップ命令の詳細なセットから、出版物に適した要約記述まで調整することができる。
論文 参考訳(メタデータ) (2023-10-04T14:25:39Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - Exploring and Characterizing Large Language Models For Embedded System
Development and Debugging [10.967443876391611]
大規模言語モデル (LLM) は、コードを生成する際、顕著な能力を示しているが、組み込みシステム用のソフトウェアを開発する能力は研究されていない。
我々は,組込みシステム開発におけるLLMの能力と限界を評価するためのオープンソースフレームワークを開発した。
この発見を利用して、人間のプログラマがこれらのツールとどのように相互作用するかを研究し、組み込みシステムを構築するためのヒューマンAIベースのソフトウェアエンジニアリングワークフローを開発する。
論文 参考訳(メタデータ) (2023-07-07T20:14:22Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Machine Learning for Software Engineering: A Systematic Mapping [73.30245214374027]
ソフトウェア開発業界は、現代のソフトウェアシステムを高度にインテリジェントで自己学習システムに移行するために、機械学習を急速に採用している。
ソフトウェアエンジニアリングライフサイクルの段階にわたって機械学習の採用について、現状を探求する包括的な研究は存在しない。
本研究は,機械学習によるソフトウェア工学(MLSE)分類を,ソフトウェア工学ライフサイクルのさまざまな段階に適用性に応じて,最先端の機械学習技術に分類するものである。
論文 参考訳(メタデータ) (2020-05-27T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。