論文の概要: The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs
- arxiv url: http://arxiv.org/abs/2506.18403v1
- Date: Mon, 23 Jun 2025 08:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.911656
- Title: The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs
- Title(参考訳): Debugging Decay Index: Code LLMのデバッグ戦略の再考
- Authors: Muntasir Adnan, Carlos C. N. Kuhn,
- Abstract要約: デバッグが非効率になったときを定量化し,介入点を予測する数学的フレームワークであるDecay Index(DDI)を導入する。
DDIは、現在のAIデバッグにおける基本的な制限を明らかにし、反復的なコード生成戦略を最適化するための最初の定量的フレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of AI debugging follows a predictable exponential decay pattern; most models lose 60-80% of their debugging capability within just 2-3 attempts, despite iterative debugging being a critical capability for practical code generation systems. We introduce the Debugging Decay Index (DDI), a mathematical framework that quantifies when debugging becomes ineffective and predicts intervention points. Our strategic fresh start approach shifts from exploitation to exploration at strategic points in the debugging process, demonstrating that well-timed interventions can rescue the effectiveness of debugging. DDI reveals a fundamental limitation in current AI debugging and provides the first quantitative framework for optimising iterative code generation strategies.
- Abstract(参考訳): ほとんどのモデルは、実用的なコード生成システムにおいて、反復的なデバッグが重要な機能であるにもかかわらず、2~3回の試行でデバッグ能力の60~80%を失う。
Debugging Decay Index (DDI) は,デバッグが有効でない場合を定量化し,介入点を予測する数学的フレームワークである。
私たちの戦略的な新しいアプローチは、デバッグプロセスの戦略的ポイントにおけるエクスプロイトから、デバッグの有効性を救えることを示しながら、デバッグプロセスの戦略的ポイントでの探索に移行します。
DDIは、現在のAIデバッグにおける基本的な制限を明らかにし、反復的なコード生成戦略を最適化するための最初の定量的フレームワークを提供する。
関連論文リスト
- DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - GradStop: Exploring Training Dynamics in Unsupervised Outlier Detection through Gradient [18.077143014067126]
Unsupervised Outlier Detection (UOD)は、データマイニングと機械学習において重要なタスクであり、多数派から著しく逸脱したインスタンスを識別することを目的としている。
ラベルがなければ、深い UOD メソッドはモデルの直接最適化目標と Outlier Detection タスクの最終的なパフォーマンス目標との相違に悩まされる。
本稿では,深部UODモデルのトレーニングを最適化する早期停止アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-11T16:07:58Z) - COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis [29.667170755786508]
大規模言語モデルの能力を評価するためのベンチマークであるEVALを紹介する。
我々は,マルチエージェントシステムを用いて高品質な学習データを生成する,コミュニケーティブエージェントベースのデータ合成フレームワークを提案する。
以上の結果から,COAST生成データは人為的・GPT-4生成データよりも優れていた。
論文 参考訳(メタデータ) (2024-08-09T11:35:44Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Accelerating System-Level Debug Using Rule Learning and Subgroup Discovery Techniques [1.6317061277457001]
デバッグの労力を減らすために、高品質なデバッグヒントを提供する方法について説明する。
ケーススタディでは,これらの手法をパワーマネジメント (PM) 設計機能であるPackage-C8の根源的故障に応用した。
本稿では,ルートキャスティングの経験と再利用の成果をマイニングし,将来のデバッグ活動を加速し,検証専門家への依存を減らすためのアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-02T22:00:30Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。