論文の概要: Examining LLMs Ability to Summarize Code Through Mutation-Analysis
- arxiv url: http://arxiv.org/abs/2602.17838v1
- Date: Thu, 19 Feb 2026 21:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.148237
- Title: Examining LLMs Ability to Summarize Code Through Mutation-Analysis
- Title(参考訳): 変異解析によるコードの要約能力の検討
- Authors: Lara Khatib, Micheal Pu, Bogdan Vasilescu, Meiyappan Nagappan,
- Abstract要約: 本稿では,要約がコードのロジックと真に一致するかどうかを直接検査する突然変異に基づく評価手法を提案する。
62プログラム中624件の変異生検評価を合計3つの実験で検証した。
変異の種類や位置は、より弱い効果を示す一方、要約精度は複雑さとともに急激に低下する。
- 参考スコア(独自算出の注目度): 9.187740569361804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As developers increasingly rely on LLM-generated code summaries for documentation, testing, and review, it is important to study whether these summaries accurately reflect what the program actually does. LLMs often produce confident descriptions of what the code looks like it should do (intent), while missing subtle edge cases or logic changes that define what it actually does (behavior). We present a mutation-based evaluation methodology that directly tests whether a summary truly matches the code's logic. Our approach generates a summary, injects a targeted mutation into the code, and checks if the LLM updates its summary to reflect the new behavior. We validate it through three experiments totalling 624 mutation-summary evaluations across 62 programs. First, on 12 controlled synthetic programs with 324 mutations varying in type (statement, value, decision) and location (beginning, middle, end). We find that summary accuracy decreases sharply with complexity from 76.5% for single functions to 17.3% for multi-threaded systems, while mutation type and location exhibit weaker effects. Second, testing 150 mutated samples on 50 human-written programs from the Less Basic Python Problems (LBPP) dataset confirms the same failure patterns persist as models often describe algorithmic intent rather than actual mutated behavior with a summary accuracy rate of 49.3%. Furthermore, while a comparison between GPT-4 and GPT-5.2 shows a substantial performance leap (from 49.3% to 85.3%) and an improved ability to identify mutations as "bugs", both models continue to struggle with distinguishing implementation details from standard algorithmic patterns. This work establishes mutation analysis as a systematic approach for assessing whether LLM-generated summaries reflect program behavior rather than superficial textual patterns.
- Abstract(参考訳): 開発者がドキュメント、テスト、レビューのためにLLM生成のコード要約をますます頼りにしているため、これらの要約がプログラムが実際に何をしているのかを正確に反映しているかどうかを調べることが重要である。
LLMは、コードが何をすべきか(意図的)に自信を持って記述する一方で、実際に何をするかを定義する微妙なエッジケースやロジックの変更を欠いている(振る舞い)。
本稿では,要約がコードのロジックと真に一致するかどうかを直接検査する突然変異に基づく評価手法を提案する。
我々の手法は要約を生成し、目的の突然変異をコードに注入し、LCMがその要約を更新して新しい振る舞いを反映するかどうかをチェックする。
62プログラム中624件の変異生検評価を合計3つの実験で検証した。
第一に、12の制御された合成プログラムにおいて、324の変異がタイプ(表現、価値、決定)と位置(中間、終了)によって変化する。
要約精度は、単一機能では76.5%からマルチスレッドシステムでは17.3%に急激に低下する一方、突然変異タイプと位置はより弱い効果を示す。
次に、Les Basic Python Problems (LBPP)データセットから50個の人書きプログラムで150個の変異されたサンプルをテストすると、モデルが実際の変異された振る舞いではなくアルゴリズムの意図を49.3%の要約精度で記述するのと同じ失敗パターンが持続することを確認した。
さらに、GPT-4とGPT-5.2の比較では、49.3%から85.3%までの大幅な性能向上と、突然変異を"バグ"と識別する能力の改善が見られたが、どちらのモデルも標準のアルゴリズムパターンと実装の詳細を区別するのに苦労している。
本研究は,LLM生成サマリーが表層テキストのパターンよりもプログラムの振る舞いを反映しているかどうかを評価するための体系的なアプローチとして,突然変異解析を確立した。
関連論文リスト
- ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - Self-reflection in Automated Qualitative Coding: Improving Text Annotation through Secondary LLM Critique [1.5749416770494706]
大規模言語モデル(LLM)は、大規模なデータセットの高度な定性的な符号化を可能にする。
簡単な一般化可能な2段階のワークフローを提示する: LLMは人間設計のコードブックを適用し、二次LPM批評家は各正のラベルに対して自己回帰を行う。
我々は,Apache Software Foundationのプロジェクト評価に関する議論において,3,000件以上の高コンテンツメールに対する6つの定性的なコードに対して,このアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-14T22:27:13Z) - Assertion-Aware Test Code Summarization with Large Language Models [0.0]
単体テストは、テスト意図を伝える簡潔な要約を欠くことが多い。
本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを示す。
論文 参考訳(メタデータ) (2025-11-09T04:58:32Z) - Understanding Robustness of Model Editing in Code LLMs: An Empirical Study [1.5624785508022727]
本稿では,5つの最先端モデル編集手法の体系的研究を行う。
これらの手法を3つの主要なオープンソースコードLLM、CodeLlama、CodeQwen1.5、DeepSeek-Coderに適用する。
インスタント編集はモデル性能を常に劣化させ、構文的妥当性は86ポイントまで低下し、機能的正しさは最高のパフォーマンス設定でも45ポイントまで低下する。
論文 参考訳(メタデータ) (2025-11-05T04:58:13Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations? [18.52519530244078]
最大8Bのパラメータを持つ最先端の大規模言語モデルがPythonプログラムを推論できるのか、それとも単純に推測できるのかを評価する。
変数のリネーム、比較式のミラー化、if-elseブランチのスワップ、ループの while への変換、ループアンロールの5つのコード変異を適用します。
以上の結果から,LLMは10%から50%の症例において,欠陥推論に基づいて正しい予測を導出できることがわかった。
論文 参考訳(メタデータ) (2025-05-15T16:04:25Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - A Comprehensive Study on Large Language Models for Mutation Testing [36.00296047226433]
大規模言語モデル(LLM)は、最近、研究作業と産業実践の両方においてミュータントを生成するために使用されている。
BugFarm と LLMorpheus (最先端の2つの LLM ベースのアプローチ) を,Java の実世界の2つのバグベンチマークから,851 の実際のバグに対して評価した。
以上の結果から, LLMは既存のルールベースアプローチと比較して, 実際のバグに近づき, 111.29%の障害検出率を持つ, より多様な変異体を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。