Fugu-MT 論文翻訳(概要): Understanding the Effectiveness of LLMs in Automated Self-Admitted Technical Debt Repayment

論文の概要: Understanding the Effectiveness of LLMs in Automated Self-Admitted Technical Debt Repayment

arxiv url: http://arxiv.org/abs/2501.09888v1
Date: Fri, 17 Jan 2025 00:23:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.625134
Title: Understanding the Effectiveness of LLMs in Automated Self-Admitted Technical Debt Repayment
Title（参考訳）: 自己充足型技術的負債返済におけるLLMの有効性の理解
Authors: Mohammad Sadegh Sheikhaei, Yuan Tian, Shaowei Wang, Bowen Xu,
Abstract要約: Self-Admitted Technical Debt (SATD) はコード品質を低下させ、メンテナンスコストを増大させる。大規模言語モデル(LLM)は、コード生成やプログラムの修復といったタスクにおいて有望であることを示している。 SATD返済のためのLLMのトレーニングと評価において,3つの重要な課題を特定した。
参考スコア（独自算出の注目度）: 13.698224831089464
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Self-Admitted Technical Debt (SATD), cases where developers intentionally acknowledge suboptimal solutions in code through comments, poses a significant challenge to software maintainability. Left unresolved, SATD can degrade code quality and increase maintenance costs. While Large Language Models (LLMs) have shown promise in tasks like code generation and program repair, their potential in automated SATD repayment remains underexplored. In this paper, we identify three key challenges in training and evaluating LLMs for SATD repayment: (1) dataset representativeness and scalability, (2) removal of irrelevant SATD repayments, and (3) limitations of existing evaluation metrics. To address the first two dataset-related challenges, we adopt a language-independent SATD tracing tool and design a 10-step filtering pipeline to extract SATD repayments from repositories, resulting two large-scale datasets: 58,722 items for Python and 97,347 items for Java. To improve evaluation, we introduce two diff-based metrics, BLEU-diff and CrystalBLEU-diff, which measure code changes rather than whole code. Additionally, we propose another new metric, LEMOD, which is both interpretable and informative. Using our new benchmarks and evaluation metrics, we evaluate two types of automated SATD repayment methods: fine-tuning smaller models, and prompt engineering with five large-scale models. Our results reveal that fine-tuned small models achieve comparable Exact Match (EM) scores to prompt-based approaches but underperform on BLEU-based metrics and LEMOD. Notably, Gemma-2-9B leads in EM, addressing 10.1% of Python and 8.1% of Java SATDs, while Llama-3.1-70B-Instruct and GPT-4o-mini excel on BLEU-diff, CrystalBLEU-diff, and LEMOD metrics. Our work contributes a robust benchmark, improved evaluation metrics, and a comprehensive evaluation of LLMs, advancing research on automated SATD repayment.
Abstract（参考訳）: Self-Admitted Technical Debt (SATD) – 開発者がコメントを通じてコード内の最適化されたソリューションを意図的に認識するケースは、ソフトウェアの保守性に重大な課題を生じさせる。 SATDは未解決のまま、コード品質を低下させ、メンテナンスコストを増大させることができる。 LLM(Large Language Models)は、コード生成やプログラムの修復といったタスクにおいて有望であるが、SATDの自動返済の可能性はまだ未定である。本稿では,SATD 返済のための LLM のトレーニングと評価において,(1) データセットの表現性とスケーラビリティ,(2) 不適切な SATD 返済の除去,(3) 既存の評価指標の制限,の3つの課題を特定する。最初の2つのデータセットに関連する課題に対処するため、言語に依存しないSATDトレースツールを採用し、リポジトリからSATD返済を抽出する10ステップのフィルタリングパイプラインを設計しました。評価を改善するために,コード全体ではなくコードの変化を計測するBLEU-diffとCrystalBLEU-diffという2つの差分ベースのメトリクスを導入した。さらに、解釈可能かつ情報的である別の新しい計量 LEMOD を提案する。新しいベンチマークと評価指標を用いて、小型モデルの微調整と5つの大規模モデルによるエンジニアリングの促進という、2種類のSATD返済方法の評価を行った。その結果,細調整された小型モデルでは,プロンプトベースのアプローチと同等のエクサクトマッチング(EM)スコアが得られるが,BLEUベースのメトリクスやLEMODでは性能が劣ることがわかった。特に、Gemma-2-9BはEMでリードし、Pythonの10.1%、Java SATDの8.1%、Llama-3.1-70B-InstructとGPT-4o-miniはBLEU-diff、CrystalBLEU-diff、LEMODのメトリクスで優れている。我々の研究は、ロバストなベンチマーク、評価基準の改善、LCMの包括的な評価に貢献し、SATD自動返済の研究を進めています。

関連論文リスト

Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文参考訳（メタデータ） (2025-03-10T16:56:51Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するように設計された、オープンソースのLLMである。 110万のGitHubイシューと対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixerの2つのモジュールを個別にトレーニングします。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文参考訳（メタデータ） (2024-05-08T18:23:59Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
EntGPT: Linking Generative Large Language Models with Knowledge Bases [8.557683104631883]
ELタスクの強化に先進的なプロンプトエンジニアリングを採用したEntGPTを導入する。この3段階のハードプロンプト法(EntGPT-P)は,バニラプロンプトよりもマイクロF_1スコアを最大36%向上させる。命令チューニング手法EntGPT-I(EntGPT-I)は,教師付きELタスクの平均2.1%のマイクロF_1スコアを改善する。
論文参考訳（メタデータ） (2024-02-09T19:16:27Z)
Benchmarking Causal Study to Interpret Large Language Models for Source Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文参考訳（メタデータ） (2023-08-23T20:32:12Z)
Towards Automatically Addressing Self-Admitted Technical Debt: How Far Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。 595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文参考訳（メタデータ） (2023-08-17T12:27:32Z)
Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文参考訳（メタデータ） (2023-05-29T19:48:37Z)
Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。 AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文参考訳（メタデータ） (2021-10-07T16:41:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。