論文の概要: Evaluating Large Language Models for Code Review
- arxiv url: http://arxiv.org/abs/2505.20206v1
- Date: Mon, 26 May 2025 16:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:27.017759
- Title: Evaluating Large Language Models for Code Review
- Title(参考訳): コードレビューのための大規模言語モデルの評価
- Authors: Umut Cihan, Arda İçöz, Vahid Haratian, Eray Tüzün,
- Abstract要約: GPT4oとGemini 2.0 Flashを492 AIでテストしました。
GPT4o と Gemini 2.0 Flash はそれぞれ68.50% と63.89% のコード正当性を正しく分類し、67.83% と54.26% のコード正当性を修正した。
- 参考スコア(独自算出の注目度): 2.0261749670612637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Code reviews are crucial for software quality. Recent AI advances have allowed large language models (LLMs) to review and fix code; now, there are tools that perform these reviews. However, their reliability and accuracy have not yet been systematically evaluated. Objective: This study compares different LLMs' performance in detecting code correctness and suggesting improvements. Method: We tested GPT4o and Gemini 2.0 Flash on 492 AI generated code blocks of varying correctness, along with 164 canonical code blocks from the HumanEval benchmark. To simulate the code review task objectively, we expected LLMs to assess code correctness and improve the code if needed. We ran experiments with different configurations and reported on the results. Results: With problem descriptions, GPT4o and Gemini 2.0 Flash correctly classified code correctness 68.50% and 63.89% of the time, respectively, and corrected the code 67.83% and 54.26% of the time for the 492 code blocks of varying correctness. Without problem descriptions, performance declined. The results for the 164 canonical code blocks differed, suggesting that performance depends on the type of code. Conclusion: LLM code reviews can help suggest improvements and assess correctness, but there is a risk of faulty outputs. We propose a process that involves humans, called the "Human in the loop LLM Code Review" to promote knowledge sharing while mitigating the risk of faulty outputs.
- Abstract(参考訳): コンテキスト: コードレビューはソフトウェアの品質に不可欠です。
最近のAIの進歩により、大規模な言語モデル(LLM)がコードのレビューと修正を可能にしている。
しかし、その信頼性と正確性はまだ体系的に評価されていない。
目的: この研究は、コード正しさの検出と改善の提案において、異なるLLMのパフォーマンスを比較します。
方法: GPT4o と Gemini 2.0 Flash を 492 AI でテストした。
コードレビュータスクを客観的にシミュレートするために、LLMがコードの正確性を評価し、必要に応じてコードを改善することを期待した。
異なる構成で実験を行い、その結果を報告しました。
結果: GPT4o と Gemini 2.0 Flash は、それぞれ68.50% と63.89% のコード正しさを正しく分類し、67.83% と54.26% のコード正しさを 492 のコードブロックに対して修正した。
問題の説明がなければ、パフォーマンスは低下した。
164の標準コードブロックの結果は異なっており、パフォーマンスはコードの種類に依存している。
結論: LLMのコードレビューは、改善の提案と正確性評価に役立つが、欠陥のあるアウトプットのリスクがある。
本研究では,「ループ中Human in the loop LLM Code Review」と呼ばれる人為的プロセスを提案し,欠陥出力のリスクを軽減しつつ知識共有を促進する。
関連論文リスト
- How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。