Fugu-MT 論文翻訳(概要): On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o

論文の概要: On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o

arxiv url: http://arxiv.org/abs/2502.07399v1
Date: Tue, 11 Feb 2025 09:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.08495
Title: On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o
Title（参考訳）: GPT-4oを用いたコード品質の反復評価と向上について
Authors: Rundong Liu, Andre Frade, Amal Vaidya, Maxime Labonne, Marcus Kaiser, Bismayan Chakrabarti, Jonathan Budd, Sean Moran,
Abstract要約: 本稿では,Large Language Models (LLM) を利用したコード品質の反復評価と向上のための新しいフレームワークであるCodeQUESTを紹介する。フレームワークは2つの主要なコンポーネントに分割されている。10次元にわたるコード品質を評価し、定量スコアと定性的な要約の両方を提供する評価器。本研究は,CodeQUESTが既存のコード品質指標と整合して,コード品質を効果的かつ堅牢に評価できることを実証する。
参考スコア（独自算出の注目度）: 1.5960340244043023
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces CodeQUEST, a novel framework leveraging Large Language Models (LLMs) to iteratively evaluate and enhance code quality across multiple dimensions, including readability, maintainability, efficiency, and security. The framework is divided into two main components: an Evaluator that assesses code quality across ten dimensions, providing both quantitative scores and qualitative summaries, and an Optimizer that iteratively improves the code based on the Evaluator's feedback. Our study demonstrates that CodeQUEST can effectively and robustly evaluate code quality, with its assessments aligning closely with established code quality metrics. Through a series of experiments using a curated dataset of Python and JavaScript examples, CodeQUEST demonstrated significant improvements in code quality, achieving a mean relative percentage improvement of 52.6%. The framework's evaluations were validated against a set of proxy metrics comprising of Pylint Score, Radon Maintainability Index, and Bandit output logs, showing a meaningful correlation. This highlights the potential of LLMs in automating code quality evaluation and improvement processes, presenting a significant advancement toward enhancing software development practices. The code implementation of the framework is available at: https://github.com/jpmorganchase/CodeQuest.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)を活用した新しいフレームワークであるCodeQUESTを紹介し,可読性,保守性,効率性,セキュリティなど,複数次元にわたるコード品質を反復的に評価し,向上させる。フレームワークは、10次元にわたるコード品質を評価し、定量スコアと定性的サマリーの両方を提供する評価器と、評価器のフィードバックに基づいてコードを反復的に改善する最適化器の2つに分けられる。我々の研究は、CodeQUESTがコード品質を効果的かつ堅牢に評価できることを示し、その評価は確立されたコード品質メトリクスと密接に一致している。 PythonとJavaScriptのサンプルをキュレートしたデータセットを使った一連の実験を通じて、CodeQUESTはコード品質を大幅に改善し、52.6%の平均相対パーセンテージ改善を達成した。フレームワークの評価は、Pylint Score、Radon Maintainability Index、Bandit出力ログからなる一連のプロキシメトリクスに対して検証され、有意義な相関関係を示している。これは、コード品質評価と改善プロセスの自動化におけるLLMの可能性を強調し、ソフトウェア開発プラクティスの強化に向けた大きな進歩を示している。フレームワークのコード実装は、https://github.com/jpmorganchase/CodeQuest.comで公開されている。

関連論文リスト

Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文参考訳（メタデータ） (2025-06-04T21:31:38Z)
CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval [31.817325318218003]
CoQuIRは、品質を意識したコード検索を評価するために設計された、最初の大規模多言語ベンチマークである。 CoQuIRは、11のプログラミング言語で42,725のクエリと134,907のコードスニペットに対して、きめ細かい品質のアノテーションを提供する。
論文参考訳（メタデータ） (2025-05-31T13:00:17Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。 CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文参考訳（メタデータ） (2025-04-29T11:57:23Z)
Code Summarization Beyond Function Level [0.213063058314067]
本研究では,関数レベルを超えたコード要約モデルの有効性について検討した。微調整された最先端のCodeT5+ベースモデルは、コード要約に優れていた。リポジトリレベルの要約は有望なポテンシャルを示したが、かなりの計算資源を必要とした。
論文参考訳（メタデータ） (2025-02-23T20:31:21Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Harnessing Large Language Models for Curated Code Reviews [2.5944208050492183]
コードレビューでは、構造化され、関連するコメントを生成することは、コードの問題を識別し、正確なコード変更を容易にするために不可欠である。既存のコードレビューデータセットは、しばしば騒々しく、未解決であり、AIモデルの学習可能性に制限を課している。本稿では,最大規模の公開コードレビューデータセットの品質向上を目的としたキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-05T18:15:09Z)
CodEv: An Automated Grading Framework Leveraging Large Language Models for Consistent and Constructive Feedback [0.0]
本研究では,Large Language Models (LLMs)を活用して,一貫した構築的フィードバックを提供する自動階調フレームワークCodEvを提案する。また,LCMアンサンブルを統合してスコアの精度と一貫性を向上させるとともに,信頼性の高いフィードバックとコードレビューコメントを提供する合意テストを実施している。
論文参考訳（メタデータ） (2025-01-10T03:09:46Z)
Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
AI-powered Code Review with LLMs: Early Results [10.37036924997437]
本稿では,Large Language Model (LLM) ベースのモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。
論文参考訳（メタデータ） (2024-04-29T08:27:50Z)
Improving the Learning of Code Review Successive Tasks with Cross-Task Knowledge Distillation [1.0878040851638]
本研究では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を利用した新しいディープラーニングアーキテクチャdisCOREVを紹介する。提案手法は, BLEUスコアによる評価値と, CodeBLEUスコアによるより正確なコード修正値から, より良いレビューコメントを生成する。
論文参考訳（メタデータ） (2024-02-03T07:02:22Z)
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-16T00:38:35Z)
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。 n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文参考訳（メタデータ） (2020-09-22T03:10:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。