論文の概要: Extracting Fix Ingredients using Language Models
- arxiv url: http://arxiv.org/abs/2503.04214v1
- Date: Thu, 06 Mar 2025 08:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:00.496946
- Title: Extracting Fix Ingredients using Language Models
- Title(参考訳): 言語モデルを用いた欠陥の抽出
- Authors: Julian Aron Prenner, Romain Robbes,
- Abstract要約: ScanFixは、追加のスキャナモデルを利用して、バグファイルと潜在的プロジェクトレベルのコンテキストから識別子を抽出するアプローチである。
遠距離識別子の知識の欠如が、修復に失敗した重要な原因であることがわかった。
- 参考スコア(独自算出の注目度): 4.852619858744873
- License:
- Abstract: Deep learning and language models are increasingly dominating automated program repair research. While previous generate-and-validate approaches were able to find and use fix ingredients on a file or even project level, neural language models are limited to the code that fits their input window. In this work we investigate how important identifier ingredients are in neural program repair and present ScanFix, an approach that leverages an additional scanner model to extract identifiers from a bug's file and potentially project-level context. We find that lack of knowledge of far-away identifiers is an important cause of failed repairs. Augmenting repair model input with scanner-extracted identifiers yields relative improvements of up to 31%. However, ScanFix is outperformed by a model with a large input window (> 5k tokens). When passing ingredients from the ground-truth fix, improvements are even higher. This shows that, with refined extraction techniques, ingredient scanning, similar to fix candidate ranking, could have the potential to become an important subtask of future automated repair systems. At the same time, it also demonstrates that this idea is subject to Sutton's bitter lesson and may be rendered unnecessary by new code models with ever-increasing context windows.
- Abstract(参考訳): ディープラーニングと言語モデルは、プログラムの修復研究をますます支配している。
以前のジェネレーション・アンド・バリデートアプローチでは、ファイルやプロジェクトレベルへの修正要素の発見と使用が可能だったが、ニューラルネットワークモデルは入力ウィンドウに適合するコードに限られていた。
本研究では、ニューラルネットワークプログラムの修復において、識別子要素がいかに重要かを調べ、ScanFixを提示する。これは、追加のスキャナモデルを利用して、バグのファイルと潜在的プロジェクトレベルのコンテキストから識別子を抽出するアプローチである。
遠距離識別子の知識の欠如が、修復に失敗した重要な原因であることがわかった。
スキャナー抽出識別子で入力された補修モデルの強化は、最大31%の相対的な改善をもたらす。
しかし、ScanFixは大きな入力ウィンドウ(>5kトークン)を持つモデルでパフォーマンスが向上する。
地中から資材を通すと、さらに改良が進む。
このことは, 改良された抽出技術により, 材料走査は, 固定候補ランキングと類似し, 将来の自動修理システムの重要なサブタスクとなる可能性を示唆している。
同時に、このアイデアはサットンの苦い教訓の対象であり、コンテキストウインドウが増加し続ける新しいコードモデルによって不要になる可能性があることも示している。
関連論文リスト
- HiBug2: Efficient and Interpretable Error Slice Discovery for Comprehensive Model Debugging [9.209104721371228]
HiBug2は、エラースライス発見とモデル修復のための自動化フレームワークである。
まずタスク固有の視覚属性を生成し、エラーを起こしやすいインスタンスをハイライトする。
次に、効率的なスライス列挙アルゴリズムを用いて、エラースライスを体系的に識別する。
論文 参考訳(メタデータ) (2025-01-28T07:08:20Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。
近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。
高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文 参考訳(メタデータ) (2024-06-21T05:05:39Z) - To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。
最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。
脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。