論文の概要: Self-Admitted Technical Debt in LLM Software: An Empirical Comparison with ML and Non-ML Software
- arxiv url: http://arxiv.org/abs/2601.06266v2
- Date: Tue, 13 Jan 2026 02:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 14:06:39.261697
- Title: Self-Admitted Technical Debt in LLM Software: An Empirical Comparison with ML and Non-ML Software
- Title(参考訳): LLMソフトウェアにおける自己申告型技術的負債:MLおよび非MLソフトウェアとの比較
- Authors: Niruthiha Selvanayagam, Taher A. Ghaleb, Manel Abdellatif,
- Abstract要約: 自己承認技術的負債(Self-admitted Technical debt、SATD)とは、最適化されたコードや不完全な機能を明確に認識する開発者によるコメントである。
大規模言語モデル時代におけるSATDの実証的研究を行った。
- 参考スコア(独自算出の注目度): 0.8156494881838944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-admitted technical debt (SATD), referring to comments flagged by developers that explicitly acknowledge suboptimal code or incomplete functionality, has received extensive attention in machine learning (ML) and traditional (Non-ML) software. However, little is known about how SATD manifests and evolves in contemporary Large Language Model (LLM)-based systems, whose architectures, workflows, and dependencies differ fundamentally from both traditional and pre-LLM ML software. In this paper, we conduct the first empirical study of SATD in the LLM era, replicating and extending prior work on ML technical debt to modern LLM-based systems. We compare SATD prevalence across LLM, ML, and non-ML repositories across a total of 477 repositories (159 per category). We perform survival analysis of SATD introduction and removal to understand the dynamics of technical debt across different development paradigms. Surprisingly, despite their architectural complexity, our results reveal that LLM repositories accumulate SATD at similar rates to ML systems (3.95% vs. 4.10%). However, we observe that LLM repositories remain debt-free 2.4x longer than ML repositories (a median of 492 days vs. 204 days), and then start to accumulate technical debt rapidly. Moreover, our qualitative analysis of 377 SATD instances reveals three new forms of technical debt unique to LLM-based development that have not been reported in prior research: Model-Stack Workaround Debt, Model Dependency Debt, and Performance Optimization Debt. Finally, by mapping SATD to stages of the LLM development pipeline, we observe that debt concentrates
- Abstract(参考訳): 自己承認型技術的負債(SATD)は、最適化されたコードや不完全な機能を明確に認識している開発者が警告するコメントを指し、機械学習(ML)と従来の(Non-ML)ソフトウェアで広く注目を集めている。
しかしながら、SATDが現在のLarge Language Model(LLM)ベースのシステムでどのように現れ、どのように進化するかについては、アーキテクチャ、ワークフロー、依存関係が従来のMLソフトウェアとLLM以前のMLソフトウェアと根本的に異なるため、ほとんど分かっていない。
本稿では,LLM時代のSATDの実証的研究を行い,ML技術的負債の複製と拡張を行った。
LLM,ML,非MLレポジトリのSATD有病率は,合計477リポジトリ(カテゴリ毎に159)で比較した。
SATD導入と廃止の生存分析を行い、様々な開発パラダイムにおける技術的負債のダイナミクスを理解する。
驚いたことに、アーキテクチャの複雑さにもかかわらず、LLMレポジトリはSATDをMLシステム(3.95%対4.10%)と同様の速度で蓄積している。
しかし,LLMレポジトリはMLレポジトリより2.4倍長く(中央値492日対204日),技術的デポジトリは急速に蓄積し始める。
さらに,377 SATD インスタンスの定性解析により,従来の研究で報告されていない LLM ベースの開発特有の技術的負債として,Model-Stack Workaround Debt,Model Dependency Debt,Performance Optimization Debt の3つの新形式が明らかになった。
最後に、SATDをLCM開発パイプラインのステージにマッピングすることで、負債が集中していることを観察します。
関連論文リスト
- PromptDebt: A Comprehensive Study of Technical Debt Across LLM Projects [0.0]
大規模言語モデル(LLM)はOpenAIを通じてソフトウェアに組み込まれており、重いインフラストラクチャなしで強力なAI機能を提供する。
しかし、これらの統合は独自の形で自己承認技術的負債(SATD)をもたらす。
本稿では,SATDの大規模実証研究として,その起源,有病率,緩和戦略について紹介する。
論文 参考訳(メタデータ) (2025-09-24T19:20:09Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - An Empirical Study of Self-Admitted Technical Debt in Machine Learning Software [17.999512016809945]
自己承認型技術的負債(SATD)は、機械学習ベースのソフトウェアの品質に大きな影響を与える可能性がある。
本稿では,5つのドメインにわたる318のオープンソースMLプロジェクトと318の非MLプロジェクトを分析し,SATDをMLコードで解析することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T18:56:36Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。