Fugu-MT 論文翻訳(概要): Can GPT-4 Replicate Empirical Software Engineering Research?

論文の概要: Can GPT-4 Replicate Empirical Software Engineering Research?

arxiv url: http://arxiv.org/abs/2310.01727v2
Date: Thu, 23 May 2024 09:43:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-26 20:43:06.324103
Title: Can GPT-4 Replicate Empirical Software Engineering Research?
Title（参考訳）: GPT-4は経験的ソフトウェア工学研究を再現できるか?
Authors: Jenny T. Liang, Carmen Badea, Christian Bird, Robert DeLine, Denae Ford, Nicole Forsgren, Thomas Zimmermann,
Abstract要約: 我々は,GPT-4が実験ソフトウェア工学研究の複製を行う能力について検討した。 GPT-4は正しい仮定を導出できるが、ソフトウェア工学データに関する共通知識を応用した仮説を生成するのに苦労している。
参考スコア（独自算出の注目度）: 20.89031544114989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Empirical software engineering research on production systems has brought forth a better understanding of the software engineering process for practitioners and researchers alike. However, only a small subset of production systems is studied, limiting the impact of this research. While software engineering practitioners could benefit from replicating research on their own data, this poses its own set of challenges, since performing replications requires a deep understanding of research methodologies and subtle nuances in software engineering data. Given that large language models (LLMs), such as GPT-4, show promise in tackling both software engineering- and science-related tasks, these models could help replicate and thus democratize empirical software engineering research. In this paper, we examine GPT-4's abilities to perform replications of empirical software engineering research on new data. We study their ability to surface assumptions made in empirical software engineering research methodologies, as well as their ability to plan and generate code for analysis pipelines on seven empirical software engineering papers. We perform a user study with 14 participants with software engineering research expertise, who evaluate GPT-4-generated assumptions and analysis plans (i.e., a list of module specifications) from the papers. We find that GPT-4 is able to surface correct assumptions, but struggles to generate ones that apply common knowledge about software engineering data. In a manual analysis of the generated code, we find that the GPT-4-generated code contains correct high-level logic, given a subset of the methodology. However, the code contains many small implementation-level errors, reflecting a lack of software engineering knowledge. Our findings have implications for leveraging LLMs for software engineering research as well as practitioner data scientists in software teams.
Abstract（参考訳）: 実運用システムに関する実証的なソフトウェアエンジニアリング研究は、実践者や研究者にとっても、ソフトウェアエンジニアリングプロセスの理解を深めている。しかし、生産システムのごく一部しか研究されておらず、この研究の影響を限定している。ソフトウェアエンジニアリングの実践者は、自身のデータに関する研究を複製することの恩恵を受けることができるが、複製を行うには、ソフトウェアエンジニアリングデータに研究方法論と微妙なニュアンスを深く理解する必要があるため、独自の課題が生じる。 GPT-4のような大きな言語モデル(LLM)は、ソフトウェア工学と科学関連のタスクの両方に取り組むことを約束しているので、これらのモデルは経験的ソフトウェア工学の研究を複製し、民主化するのに役立ちます。本稿では,GPT-4が新たなデータに対して経験的ソフトウェア工学研究の複製を行う能力について検討する。本研究では,経験的ソフトウェア工学研究方法論における仮定の抽出能力と,経験的ソフトウェア工学の7つの論文に基づく分析パイプラインの計画と生成能力について検討する。我々は,ソフトウェア工学研究の専門知識を持つ14人の参加者を対象に,GPT-4生成の仮定と分析計画(モジュール仕様のリスト)を論文から評価する。 GPT-4は正しい仮定を導出できるが、ソフトウェア工学データに関する共通知識を応用した仮説を生成するのに苦慮している。生成したコードを手動で解析した結果,GPT-4生成コードは方法論のサブセットを前提として,正しい高レベル論理を含むことがわかった。しかしながら、コードには小さな実装レベルのエラーが数多く含まれており、ソフトウェア工学の知識が不足していることを反映している。我々の発見は、ソフトウェアエンジニアリング研究やソフトウェアチームの実践的データサイエンティストにLLMを活用することに意味がある。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Comparing Human and LLM Generated Code: The Jury is Still Out! [8.456554883523472]
大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。 Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
論文参考訳（メタデータ） (2025-01-28T11:11:36Z)
A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT [0.0]
本研究は,LeetCode ユーザによる Python プログラムのソフトウェア品質と GPT-4o によるソフトウェア品質を比較し,方法論的アプローチを採用する。この結果から, GPT-4oはコード品質, 可理解性, 実行時において, 限られたスケールでコードを生成する場合に, かなりの障害を生じさせないことが示唆された。
論文参考訳（メタデータ） (2025-01-07T09:15:25Z)
A Systematic Literature Review on the Use of Machine Learning in Software Engineering [0.0]
本研究は,ソフトウェア工学プロセスに機械学習技術を適用する際の技術の現状を探るため,その目的と研究課題に従って実施された。レビューでは、ソフトウェア品質保証、ソフトウェア保守、ソフトウェア理解、ソフトウェアドキュメントなど、MLが適用されたソフトウェアエンジニアリングにおける重要な領域を特定している。
論文参考訳（メタデータ） (2024-06-19T23:04:27Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)
Morescient GAI for Software Engineering [2.4861619769660637]
ソフトウェアエンジニアリングタスクにジェネレーティブAI(GAI)を使用することは、ソフトウェアエンジニアリング研究の最も急速に拡大している分野の1つである。我々は,オープンサイエンスの原則に従って,そのような「科学的」なGAIモデルをいかに設計し,発展し,普及させるか,というビジョンを提示する。
論文参考訳（メタデータ） (2024-06-07T07:38:33Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
Requirements Engineering for Research Software: A Vision [2.2217676348694213]
ほとんどの研究者は、科学的な目的のためにソフトウェアを作成するが、ソフトウェア工学では訓練されていない。研究ソフトウェアは、しばしば厳密なプロセスに従うことなくアドホックに開発される。本稿では,研究者が研究ソフトウェアに必要な要件を抽出し,文書化し,分析する方法について述べる。
論文参考訳（メタデータ） (2024-05-13T14:25:01Z)
GPT-4 as an interface between researchers and computational software: improving usability and reproducibility [44.99833362998488]
分子動力学シミュレーションに広く用いられているソフトウェアに焦点をあてる。英語のタスク記述から GPT-4 で生成された入力ファイルの有用性を定量化する。 GPT-4は,比較的簡単なタスクに対して,正しい入力ファイルを生成することができる。さらに、GPT-4の入力ファイルからの計算タスクの記述は、ステップバイステップ命令の詳細なセットから、出版物に適した要約記述まで調整することができる。
論文参考訳（メタデータ） (2023-10-04T14:25:39Z)
Using Machine Learning To Identify Software Weaknesses From Software Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。 ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文参考訳（メタデータ） (2023-08-10T13:19:10Z)
Exploring and Characterizing Large Language Models For Embedded System Development and Debugging [10.967443876391611]
大規模言語モデル (LLM) は、コードを生成する際、顕著な能力を示しているが、組み込みシステム用のソフトウェアを開発する能力は研究されていない。我々は,組込みシステム開発におけるLLMの能力と限界を評価するためのオープンソースフレームワークを開発した。この発見を利用して、人間のプログラマがこれらのツールとどのように相互作用するかを研究し、組み込みシステムを構築するためのヒューマンAIベースのソフトウェアエンジニアリングワークフローを開発する。
論文参考訳（メタデータ） (2023-07-07T20:14:22Z)
Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-05-24T11:26:59Z)
Machine Learning for Software Engineering: A Systematic Mapping [73.30245214374027]
ソフトウェア開発業界は、現代のソフトウェアシステムを高度にインテリジェントで自己学習システムに移行するために、機械学習を急速に採用している。ソフトウェアエンジニアリングライフサイクルの段階にわたって機械学習の採用について、現状を探求する包括的な研究は存在しない。本研究は,機械学習によるソフトウェア工学(MLSE)分類を,ソフトウェア工学ライフサイクルのさまざまな段階に適用性に応じて,最先端の機械学習技術に分類するものである。
論文参考訳（メタデータ） (2020-05-27T11:56:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。