論文の概要: Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs
- arxiv url: http://arxiv.org/abs/2409.10033v2
- Date: Tue, 17 Sep 2024 01:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 13:22:58.012829
- Title: Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs
- Title(参考訳): GPT-O1はすべてのバグを排除できるか? クイックバグにおけるGPT-Family LLMの評価
- Authors: Haichuan Hu, Ye Shang, Guolin Xu, Congqing He, Quanjun Zhang,
- Abstract要約: この作業は、最近のGPT-o1モデルの公開リリースにインスパイアされている。
自動プログラム修復(APR)におけるGPTファミリーモデルの異なるバージョンの有効性の比較を行った。
O1の修復機能は、以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを修正できた。
- 参考スコア(独自算出の注目度): 2.2050012615434276
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs have long demonstrated remarkable effectiveness in automatic program repair (APR), with OpenAI's ChatGPT being one of the most widely used models in this domain. Through continuous iterations and upgrades of GPT-family models, their performance in fixing bugs has already reached state-of-the-art levels. However, there are few works comparing the effectiveness and variations of different versions of GPT-family models on APR. In this work, inspired by the recent public release of the GPT-o1 models, we conduct the first study to compare the effectiveness of different versions of the GPT-family models in APR. We evaluate the performance of the latest version of the GPT-family models (i.e., O1-preview and O1-mini), GPT-4o, and the historical version of ChatGPT on APR. We conduct an empirical study of the four GPT-family models against other LLMs and APR techniques on the QuixBugs benchmark from multiple evaluation perspectives, including repair success rate, repair cost, response length, and behavior patterns. The results demonstrate that O1's repair capability exceeds that of prior GPT-family models, successfully fixing all 40 bugs in the benchmark. Our work can serve as a foundation for further in-depth exploration of the applications of GPT-family models in APR.
- Abstract(参考訳): LLMは長い間、自動プログラム修復(APR)において顕著な効果を示しており、OpenAIのChatGPTはこの領域で最も広く使われているモデルの1つである。
GPTファミリーモデルの継続的なイテレーションとアップグレードを通じて、バグ修正のパフォーマンスは、すでに最先端レベルに達している。
しかしながら、APR上でのGPTファミリーモデルの異なるバージョンの有効性とバリエーションを比較する研究はほとんどない。
本研究は,最近のGPT-o1モデル公開に触発されて,APRにおけるGPT-ファミリーモデルの異なるバージョンの有効性を比較するための最初の研究である。
我々は,最新のGPTファミリーモデル(O1-previewとO1-mini),GPT-4o,およびAPRにおけるChatGPTの歴史的評価を行った。
我々は, 修復成功率, 修理コスト, 応答長, 行動パターンなど, 複数の評価視点から, その他のLCMとAPRの4つのモデルに対する実験的検討を行った。
その結果、O1の修復能力は以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを全て修正することができた。
我々の研究は、APRにおけるGPTファミリーモデルの適用について、より詳細な調査の基盤となることができる。
関連論文リスト
- Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Can ChatGPT support software verification? [0.9668407688201361]
ループ不変量で106個のCプログラムにアノテートするようChatGPTに依頼する。
本稿では,Frama-C と CPA Checker の2つの検証器に渡すことで,生成した不変量の妥当性と有用性を確認する。
評価の結果,ChatGPTはFrama-Cがこれまで解決できなかったタスクを検証できる有効かつ有用な不変量を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-11-04T15:25:18Z) - An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction
Benchmark [11.36853733574956]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。
商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。
また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-03-15T00:35:50Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [97.8609714773255]
機械翻訳におけるChatGPTの評価には,翻訳プロンプト,多言語翻訳,翻訳堅牢性などが含まれる。
ChatGPTは商用翻訳製品と競合するが、低リソースや遠方の言語では遅れている。
GPT-4エンジンの打ち上げにより、ChatGPTの翻訳性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-01-20T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。