論文の概要: LLMCup: Ranking-Enhanced Comment Updating with LLMs
- arxiv url: http://arxiv.org/abs/2507.08671v1
- Date: Fri, 11 Jul 2025 15:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.4004
- Title: LLMCup: Ranking-Enhanced Comment Updating with LLMs
- Title(参考訳): LLMCup: LLMによるランク付け強化されたコメント更新
- Authors: Hua Ge, Juan Zhai, Minxue Pan, Fusen He, Ziyue Tan,
- Abstract要約: 大きな言語モデル(LLM)は、コメント生成、コード合成、プログラムの修復といったソフトウェア工学のタスクにおいて素晴らしいパフォーマンスを示している。
LLMCupという新しいコメント更新フレームワークを提案する。このフレームワークはまず複数のプロンプト戦略を用いて,LSMを介して多種多様な候補更新コメントを提供する。
- 参考スコア(独自算出の注目度): 8.12420131928042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While comments are essential for enhancing code readability and maintainability in modern software projects, developers are often motivated to update code but not comments, leading to outdated or inconsistent documentation that hinders future understanding and maintenance. Recent approaches such as CUP and HebCup have attempted automatic comment updating using neural sequence-to-sequence models and heuristic rules, respectively. However, these methods can miss or misinterpret crucial information during comment updating, resulting in inaccurate comments, and they often struggle with complex update scenarios. Given these challenges, a promising direction lies in leveraging large language models (LLMs), which have shown impressive performance in software engineering tasks such as comment generation, code synthesis, and program repair. This suggests their strong potential to capture the logic behind code modifications - an ability that is crucial for the task of comment updating. Nevertheless, selecting an appropriate prompt strategy for an LLM on each update case remains challenging. To address this, we propose a novel comment updating framework, LLMCup, which first uses multiple prompt strategies to provide diverse candidate updated comments via an LLM, and then employs a ranking model, CupRank, to select the best candidate as final updated comment. Experimental results demonstrate the effectiveness of LLMCup, with improvements over state-of-the-art baselines (CUP and HebCup) by 49.0%-116.9% in Accuracy, 10.8%-20% in BLEU-4, 4.6% in METEOR, 0.9%-1.9% in F1, and 2.1%-3.4% in SentenceBert similarity. Furthermore, a user study shows that comments updated by LLMCup sometimes surpass human-written updates, highlighting the importance of incorporating human evaluation in comment quality assessment.
- Abstract(参考訳): 現代のソフトウェアプロジェクトでは、コードの可読性と保守性を高めるためにコメントは不可欠だが、開発者はしばしばコードを更新する動機があるが、コメントではない。
CUPやHebCupといった最近のアプローチでは,それぞれ,ニューラルシーケンス・ツー・シーケンスモデルとヒューリスティックルールを用いた自動コメント更新が試みられている。
しかし、これらのメソッドはコメント更新時に重要な情報を見逃したり誤解したりし、不正確なコメントをもたらし、しばしば複雑な更新シナリオで苦労する。
これらの課題を踏まえると、有望な方向性は、コメント生成やコード合成、プログラムの修復といったソフトウェアエンジニアリングタスクにおいて、優れたパフォーマンスを示す大きな言語モデル(LLM)を活用することである。
これは、コード修正の背後にあるロジックをキャプチャする強い可能性を示唆している。
それでも、各更新ケースで LLM の適切なプロンプト戦略を選択することは、依然として困難である。
そこで本稿では,LLMCupという新たなコメント更新フレームワークを提案する。このフレームワークはまず複数のプロンプト戦略を用いて,LSMを介して多種多様な候補更新コメントを提供し,次にランキングモデルであるCuppRankを用いて,最終更新コメントとして最適な候補を選択する。
実験の結果、LLMCupの有効性が示され、CUPとHebCupは49.0%-116.9%、BLEU-4は10.8%-20%、METEORは4.6%、F1は0.9%-1.9%、SentenceBertは2.1%-3.4%向上した。
さらに、ユーザ調査では、LLMCupによって更新されたコメントが人手による更新を上回ることがあることを示し、コメント品質評価に人手による評価を取り入れることの重要性を強調している。
関連論文リスト
- Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks [18.4734091090676]
人書きによるコメントを大きな言語モデルに置き換えることで、事前学習データセットが改善されるかどうかを検討する。
結果から, LLM 生成したコメントは, 人間が書いたコメントよりも, コードと意味的に一致していることがわかった。
論文 参考訳(メタデータ) (2025-04-28T03:16:34Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - AI-powered Code Review with LLMs: Early Results [10.37036924997437]
本稿では,Large Language Model (LLM) ベースのモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。
提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。
コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T08:27:50Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Automatically Recommend Code Updates: Are We There Yet? [14.997510035210842]
本稿では,コード更新を自動的に推奨する最先端のCodeLMを初めて評価する。
その結果,CodeLMは時間的情報を無視した設定では良好に動作しているが,より現実的な時間的シナリオでは困難であることがわかった。
本研究は,実世界のコード更新レコメンデーションにおいて,CodeLMの認識と実際の有効性の間に有意なギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2022-09-15T05:07:25Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。