論文の概要: Summary-Mediated Repair: Can LLMs use code summarisation as a tool for program repair?
- arxiv url: http://arxiv.org/abs/2511.18782v1
- Date: Mon, 24 Nov 2025 05:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.033696
- Title: Summary-Mediated Repair: Can LLMs use code summarisation as a tool for program repair?
- Title(参考訳): 概要-メディア修復: LLMはプログラム修復のツールとしてコード要約を使用できるか?
- Authors: Lukas Twist,
- Abstract要約: 大きな言語モデル(LLM)は、強いベンチマーク性能にもかかわらず、微妙な実装レベルのバグのあるコードを生成することが多い。
本稿では,プログラム修復のためのプロンプトのみのパイプラインである要約型修復を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) often produce code with subtle implementation-level bugs despite strong benchmark performance. These errors are hard for LLMs to spot and can have large behavioural effects; yet when asked to summarise code, LLMs can frequently surface high-level intent and sometimes overlook this low-level noise. Motivated by this, we propose summary-mediated repair, a prompt-only pipeline for program repair that leverages natural-language code summarisation as an explicit intermediate step, extending previous work that has already shown code summarisation to be a useful intermediary for downstream tasks. We evaluate our method across eight production-grade LLMs on two function level benchmarks (HumanEvalPack and MBPP), comparing several summary styles against a direct repair baseline. Error-aware diagnostic summaries consistently yield the largest gains - repairing up to 65% of unseen errors, on average of 5% more than the baseline - though overall improvements are modest and LLM-dependent. Our results position summaries as a cheap, human-interpretable diagnostic artefact that can be integrated into program-repair pipelines rather than a stand-alone fix-all.
- Abstract(参考訳): 大きな言語モデル(LLM)は、強いベンチマーク性能にもかかわらず、微妙な実装レベルのバグのあるコードを生成することが多い。
これらのエラーはLLMにとって見つからないものであり、大きな振る舞い効果を持つ可能性があるが、コードを要約するように要求されると、LLMは高レベルの意図を頻繁に表面化し、時々この低レベルのノイズを見落としてしまうことがある。
そこで本研究では、自然言語の要約を明示的な中間ステップとして活用する、プログラム修復のためのプロンプトオンリーのパイプラインである要約仲介修復を提案する。
2つの関数レベルベンチマーク(HumanEvalPack と MBPP)を用いて,本手法を8つの実運用レベル LLM で評価し,いくつかの要約スタイルと直修ベースラインを比較した。
エラーを意識した診断サマリーは、ベースラインよりも平均5%多く、最大65%の未確認エラーを修復するが、全体的な改善は控え目で、LCMに依存している。
以上の結果から,サマリーは,スタンドアローンの固定ではなく,プログラム修復パイプラインに統合可能な,安価で解釈可能な診断アーチファクトとして位置づけることができた。
関連論文リスト
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Source Code Summarization in the Era of Large Language Models [34.80939934434718]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。
サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。
我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。