論文の概要: Can GPT-O1 Kill All Bugs?
- arxiv url: http://arxiv.org/abs/2409.10033v1
- Date: Mon, 16 Sep 2024 06:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:30:58.866782
- Title: Can GPT-O1 Kill All Bugs?
- Title(参考訳): GPT-O1は全バグを消せるか?
- Authors: Haichuan Hu, Ye Shang, Guolin Xu, Congqing He, Quanjun Zhang,
- Abstract要約: 我々は,最新のChatGPT(O1-preview and O1-mini),ChatGPT-4o,およびAPRにおけるChatGPTの歴史的評価を行った。
O1の修復機能は従来のChatGPTよりも優れており、ベンチマークの40のバグの修正に成功している。
- 参考スコア(独自算出の注目度): 2.2050012615434276
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: ChatGPT has long been proven to be effective in automatic program repair (APR). With the continuous iterations and upgrades of the ChatGPT version, its performance in terms of fixes has already reached state-of-the-art levels. However, there are few works comparing the effectiveness and variations of different versions of ChatGPT on APR. In this work, we evaluate the performance of the latest version of ChatGPT (O1-preview and O1-mini), ChatGPT-4o, and historical version of ChatGPT on APR. We study the improvements of the O1 model over traditional ChatGPT in terms of APR from multiple perspectives (repair success rate, repair cost, behavior patterns), and find that O1's repair capability exceeds that of traditional ChatGPT, successfully fixing all 40 bugs in the benchmark. Our work can serve as a reference for further in-depth exploration of the applications of ChatGPT in APR.
- Abstract(参考訳): ChatGPTは長年、自動プログラム修復(APR)に有効であることが証明されてきた。
ChatGPTの継続的なイテレーションとアップグレードにより、修正点におけるパフォーマンスは、すでに最先端レベルに達している。
しかし、APR上でのChatGPTの異なるバージョンの有効性とバリエーションを比較する研究はほとんどない。
本研究では,最新のChatGPT(O1-preview and O1-mini),ChatGPT-4o,およびAPRにおけるChatGPTの歴史的評価を行った。
複数の観点から,従来のChatGPTに比べてO1モデルの改善を検討した結果,O1の修復能力が従来のChatGPTよりも優れており,ベンチマークの40のバグの修正に成功していることがわかった。
我々の研究は、APRにおけるChatGPTの応用の詳細な調査の参考となる。
関連論文リスト
- GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。
本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。
本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (2024-07-05T14:16:47Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - Collaborative Generative AI: Integrating GPT-k for Efficient Editing in
Text-to-Image Generation [114.80518907146792]
GPT-kのような大規模言語モデルを利用してテキスト・画像生成の迅速な編集プロセスを改善する可能性について検討する。
我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。
論文 参考訳(メタデータ) (2023-05-18T21:53:58Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - GPT-Neo for commonsense reasoning -- a theoretical and practical lens [0.46040036610482665]
我々は6ドルのコモンセンス推論ベンチマークタスクを用いてGPT-neoモデルの性能を評価する。
我々は,GPT-neoモデルを用いて,より大規模なモデルベースラインに対して,より小さなモデルの性能を検討することを目的とする。
論文 参考訳(メタデータ) (2022-11-28T17:49:38Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。