論文の概要: A Note on Code Quality Score: LLMs for Maintainable Large Codebases
- arxiv url: http://arxiv.org/abs/2508.02732v1
- Date: Fri, 01 Aug 2025 21:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.588144
- Title: A Note on Code Quality Score: LLMs for Maintainable Large Codebases
- Title(参考訳): コード品質スコアに関する一考察:保守可能な大規模コードベースのためのLLM
- Authors: Sherman Wong, Jalaj Bhandari, Leo Zhou Fan Yang, Xylan Xu, Yi Zhuang, Cem Cayiroglu, Payal Bhuptani, Sheela Yadawad, Hung Duong,
- Abstract要約: 本稿では,コード変更による問題を自動的に検出するコード品質スコア(CQS)システムを提案する。
コアとなるCQSシステムは、(SFTとオフラインのRLアプローチで)微調整された2つのLlama3モデルによって駆動される。
優れたユーザエクスペリエンスを維持するため、手作りのルールでシステムを階層化し、誤った応答/幻覚をフィルタリングする。
- 参考スコア(独自算出の注目度): 1.9989195565248983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maintaining code quality in large-scale software systems presents significant challenges, particularly in settings where a large numbers of engineers work concurrently on a codebase. This paper introduces Code Quality Score (CQS) system to automatically detect issues with a set of code changes and provide actionable insights. At its core, the CQS system is powered by two Llama3 models, fine-tuned (with SFT and offline RL approaches), to a) detect common code quality issues related to coding best practices and b) to provide good ``critiques'' for LLM-generated code review respectively. To maintain good user experience, we layer the system with hand-crafted rules to filter out incorrect responses/hallucinations. Offline evaluations show that our CQS system is able to achieve an impressive precision rate for identifying valid issues. This system has already been rolled out to developers in an industrial scale setting and has consistently achieved 60\% week over week user helpfulness rate, demonstrating its effectiveness in a real-world environment. In this paper, we present details of the CQS system along with some learnings on curating developer feedback to create training data for LLM fine-tuning.
- Abstract(参考訳): 大規模なソフトウェアシステムにおけるコード品質の維持は、特に多数のエンジニアがコードベースで同時に作業する環境では、大きな課題となる。
本稿では,コード品質スコア(CQS)システムを導入し,一連のコード変更による問題を自動的に検出し,実行可能な洞察を提供する。
コアとなるCQSシステムは、2つのLlama3モデル(SFTとオフラインのRLアプローチ)で駆動される。
a)コーディングのベストプラクティスに関連する共通コード品質の問題を検出して
b) LLM生成コードレビューにそれぞれ優れた ``critiques' を提供する。
優れたユーザエクスペリエンスを維持するため、手作りのルールでシステムを階層化し、誤った応答/幻覚をフィルタリングする。
オフライン評価の結果,我々のCQSシステムでは,有効な問題を特定するための精度の高い精度が得られることがわかった。
このシステムは、すでに産業規模で開発者に展開されており、実際の環境における有効性を示すために、毎週60 %のユーザ支援率を達成している。
本稿では,CQSシステムの詳細と,開発者からのフィードバックを収集してLLM微調整のためのトレーニングデータを作成する学習について述べる。
関連論文リスト
- Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文 参考訳(メタデータ) (2025-08-01T15:17:34Z) - Detecting LLM-generated Code with Subtle Modification by Adversarial Training [4.814313782484443]
我々は,入力摂動に対する頑健性を改善するために,敵のトレーニングを利用するCodeGPTSensorの強化版を提案する。
HMCorpデータセットの実験結果から,CodeGPTSensor+は対向テストセットの検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-17T13:38:16Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。