Fugu-MT 論文翻訳(概要): CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models

論文の概要: CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models

arxiv url: http://arxiv.org/abs/2503.16167v1
Date: Thu, 20 Mar 2025 14:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.427459
Title: CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models
Title（参考訳）: CodeReviewQA: 大規模言語モデルのコードレビュー総合評価
Authors: Hong Yi Lin, Chunhua Liu, Haoyu Gao, Patanamon Thongtanunam, Christoph Treude,
Abstract要約: 最先端の大規模言語モデル(LLM)は、印象的なコード生成機能を示しているが、実際のソフトウェアエンジニアリングタスクに苦労している。コードレビューのコメントは暗黙的であり、曖昧で、口語であり、モデルがコードと人間の意図の両方を理解する必要がある。この課題は、大きな言語モデルが技術的コンテキストと会話的コンテキストの両方を橋渡しする能力を評価することである。
参考スコア（独自算出の注目度）: 10.108114365564926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art large language models (LLMs) have demonstrated impressive code generation capabilities but struggle with real-world software engineering tasks, such as revising source code to address code reviews, hindering their practical use. Code review comments are often implicit, ambiguous, and colloquial, requiring models to grasp both code and human intent. This challenge calls for evaluating large language models' ability to bridge both technical and conversational contexts. While existing work has employed the automated code refinement (ACR) task to resolve these comments, current evaluation methods fall short, relying on text matching metrics that provide limited insight into model failures and remain susceptible to training data contamination. To address these limitations, we introduce a novel evaluation benchmark, $\textbf{CodeReviewQA}$ that enables us to conduct fine-grained assessment of model capabilities and mitigate data contamination risks. In CodeReviewQA, we decompose the generation task of code refinement into $\textbf{three essential reasoning steps}$: $\textit{change type recognition}$ (CTR), $\textit{change localisation}$ (CL), and $\textit{solution identification}$ (SI). Each step is reformulated as multiple-choice questions with varied difficulty levels, enabling precise assessment of model capabilities, while mitigating data contamination risks. Our comprehensive evaluation spans 72 recently released large language models on $\textbf{900 manually curated, high-quality examples}$ across nine programming languages. Our results show that CodeReviewQA is able to expose specific model weaknesses in code review comprehension, disentangled from their generative automated code refinement results.
Abstract（参考訳）: 最先端の大規模言語モデル(LLM)は印象的なコード生成機能を示しているが、コードレビューに対処するソースコードの修正や実際の使用を妨げるような実際のソフトウェアエンジニアリングタスクに苦労している。コードレビューのコメントは暗黙的であり、曖昧で、口語であり、モデルがコードと人間の意図の両方を理解する必要がある。この課題は、大きな言語モデルが技術的コンテキストと会話的コンテキストの両方を橋渡しする能力を評価することである。既存の作業ではこれらのコメントを解決するために自動コード修正(ACR)タスクが使用されているが、現在の評価方法は不足している。これらの制約に対処するために、新しい評価ベンチマークである$\textbf{CodeReviewQA}$を導入する。 CodeReviewQAでは、コードリファインメントの生成タスクを$\textbf{ Three essential reasoning steps}$: $\textit{change type recognition}$ (CTR), $\textit{change localisation}$ (CL), $\textit{solution Identification}$ (SI)に分解します。各ステップは、さまざまな難易度を持つ多重選択質問として再構成され、データの汚染リスクを軽減しつつ、モデル能力の正確な評価を可能にします。包括的評価は、最近、9つのプログラミング言語で、$\textbf{900を手作業でキュレートした高品質な例で、72の大規模な言語モデルをリリースしました。この結果から,CodeReviewQAは,コードレビューの理解において,生成する自動コード修正結果から切り離された特定のモデルの弱点を明らかにすることができることがわかった。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。 RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文参考訳（メタデータ） (2025-07-14T02:36:27Z)
Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文参考訳（メタデータ） (2025-06-04T21:31:38Z)
A Qualitative Investigation into LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics [10.1653613066577]
我々は,5つの最先端コードモデルによって生成されたコードコメントの誤りを分析するために,オープンコーディング研究を行う。モデル生成コードコメントにおいて26の異なるエラーカテゴリの分類を同定する。分析の結果、これらのモデルはしばしば部分的に正しいコメントを生成するが、現代のニューラルネットワークは、意味のある完了をランダムノイズと確実に区別することができないことがわかった。
論文参考訳（メタデータ） (2025-05-21T12:45:49Z)
On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文参考訳（メタデータ） (2025-03-21T01:00:45Z)
Harnessing Large Language Models for Curated Code Reviews [2.5944208050492183]
コードレビューでは、構造化され、関連するコメントを生成することは、コードの問題を識別し、正確なコード変更を容易にするために不可欠である。既存のコードレビューデータセットは、しばしば騒々しく、未解決であり、AIモデルの学習可能性に制限を課している。本稿では,最大規模の公開コードレビューデータセットの品質向上を目的としたキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-05T18:15:09Z)
Too Noisy To Learn: Enhancing Data Quality for Code Review Comment Generation [2.990411348977783]
オープンソースのデータセットは、自動コードレビュータスクのためのニューラルネットワークのトレーニングに使用される。これらのデータセットには、クリーニングメソッドにもかかわらず持続する大量のノイズの多いコメントが含まれている。大規模言語モデル(LLM)を用いて,これらのデータセットをさらにクリーン化する手法を提案する。
論文参考訳（メタデータ） (2025-02-04T22:48:58Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文参考訳（メタデータ） (2023-04-27T16:38:17Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文参考訳（メタデータ） (2022-12-19T22:08:36Z)
Code Comment Inconsistency Detection with BERT and Longformer [9.378041196272878]
ソースコードの自然言語記述であるコメントは、ソフトウェア開発者の間で標準的なプラクティスである。コメントに付随する修正を加えずにコードを変更すると、コメントとコードの間に矛盾が生じます。本研究では,自然言語推論(NLI)の文脈における不整合を検出するための2つのモデルを提案する。
論文参考訳（メタデータ） (2022-07-29T02:43:51Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文参考訳（メタデータ） (2020-10-04T16:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。