論文の概要: Understanding the Effectiveness of LLMs in Automated Self-Admitted Technical Debt Repayment
- arxiv url: http://arxiv.org/abs/2501.09888v1
- Date: Fri, 17 Jan 2025 00:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:27.076065
- Title: Understanding the Effectiveness of LLMs in Automated Self-Admitted Technical Debt Repayment
- Title(参考訳): 自己充足型技術的負債返済におけるLLMの有効性の理解
- Authors: Mohammad Sadegh Sheikhaei, Yuan Tian, Shaowei Wang, Bowen Xu,
- Abstract要約: Self-Admitted Technical Debt (SATD) はコード品質を低下させ、メンテナンスコストを増大させる。
大規模言語モデル(LLM)は、コード生成やプログラムの修復といったタスクにおいて有望であることを示している。
SATD返済のためのLLMのトレーニングと評価において,3つの重要な課題を特定した。
- 参考スコア(独自算出の注目度): 13.698224831089464
- License:
- Abstract: Self-Admitted Technical Debt (SATD), cases where developers intentionally acknowledge suboptimal solutions in code through comments, poses a significant challenge to software maintainability. Left unresolved, SATD can degrade code quality and increase maintenance costs. While Large Language Models (LLMs) have shown promise in tasks like code generation and program repair, their potential in automated SATD repayment remains underexplored. In this paper, we identify three key challenges in training and evaluating LLMs for SATD repayment: (1) dataset representativeness and scalability, (2) removal of irrelevant SATD repayments, and (3) limitations of existing evaluation metrics. To address the first two dataset-related challenges, we adopt a language-independent SATD tracing tool and design a 10-step filtering pipeline to extract SATD repayments from repositories, resulting two large-scale datasets: 58,722 items for Python and 97,347 items for Java. To improve evaluation, we introduce two diff-based metrics, BLEU-diff and CrystalBLEU-diff, which measure code changes rather than whole code. Additionally, we propose another new metric, LEMOD, which is both interpretable and informative. Using our new benchmarks and evaluation metrics, we evaluate two types of automated SATD repayment methods: fine-tuning smaller models, and prompt engineering with five large-scale models. Our results reveal that fine-tuned small models achieve comparable Exact Match (EM) scores to prompt-based approaches but underperform on BLEU-based metrics and LEMOD. Notably, Gemma-2-9B leads in EM, addressing 10.1% of Python and 8.1% of Java SATDs, while Llama-3.1-70B-Instruct and GPT-4o-mini excel on BLEU-diff, CrystalBLEU-diff, and LEMOD metrics. Our work contributes a robust benchmark, improved evaluation metrics, and a comprehensive evaluation of LLMs, advancing research on automated SATD repayment.
- Abstract(参考訳): Self-Admitted Technical Debt (SATD) – 開発者がコメントを通じてコード内の最適化されたソリューションを意図的に認識するケースは、ソフトウェアの保守性に重大な課題を生じさせる。
SATDは未解決のまま、コード品質を低下させ、メンテナンスコストを増大させることができる。
LLM(Large Language Models)は、コード生成やプログラムの修復といったタスクにおいて有望であるが、SATDの自動返済の可能性はまだ未定である。
本稿では,SATD 返済のための LLM のトレーニングと評価において,(1) データセットの表現性とスケーラビリティ,(2) 不適切な SATD 返済の除去,(3) 既存の評価指標の制限,の3つの課題を特定する。
最初の2つのデータセットに関連する課題に対処するため、言語に依存しないSATDトレースツールを採用し、リポジトリからSATD返済を抽出する10ステップのフィルタリングパイプラインを設計しました。
評価を改善するために,コード全体ではなくコードの変化を計測するBLEU-diffとCrystalBLEU-diffという2つの差分ベースのメトリクスを導入した。
さらに、解釈可能かつ情報的である別の新しい計量 LEMOD を提案する。
新しいベンチマークと評価指標を用いて、小型モデルの微調整と5つの大規模モデルによるエンジニアリングの促進という、2種類のSATD返済方法の評価を行った。
その結果,細調整された小型モデルでは,プロンプトベースのアプローチと同等のエクサクトマッチング(EM)スコアが得られるが,BLEUベースのメトリクスやLEMODでは性能が劣ることがわかった。
特に、Gemma-2-9BはEMでリードし、Pythonの10.1%、Java SATDの8.1%、Llama-3.1-70B-InstructとGPT-4o-miniはBLEU-diff、CrystalBLEU-diff、LEMODのメトリクスで優れている。
我々の研究は、ロバストなベンチマーク、評価基準の改善、LCMの包括的な評価に貢献し、SATD自動返済の研究を進めています。
関連論文リスト
- SolSearch: An LLM-Driven Framework for Efficient SAT-Solving Code Generation [13.056487325961688]
Satisfiability(SAT)問題は、ソフトウェア工学における重要な応用において、中核的な課題である。
本稿では,大規模言語モデル(LLM)を利用してSAT解決戦略の自動発見と最適化を行う新しいフレームワークであるSolSearchを提案する。
論文 参考訳(メタデータ) (2025-02-20T07:25:21Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Towards Automatically Addressing Self-Admitted Technical Debt: How Far
Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。
595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。
このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文 参考訳(メタデータ) (2023-08-17T12:27:32Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。