Fugu-MT 論文翻訳(概要): Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

論文の概要: Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

arxiv url: http://arxiv.org/abs/2505.13103v1
Date: Mon, 19 May 2025 13:32:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.62013
Title: Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair
Title（参考訳）: 7400個のバグを1ドルで修正: クラッシュ・シテプログラムの修復
Authors: Han Zheng, Ilia Shumailov, Tianqi Fan, Aiden Hall, Mathias Payer,
Abstract要約: 本報告では, 事故現場の修復作業の簡易化を図るとともに, 被害発生リスクを軽減しつつ, 修復作業の簡易化を図っている。大規模言語モデル(LLM)のトークンコストを大幅に削減するテンプレート誘導型パッチ生成手法を提案する。以上の結果から,トップパフォーマンスエージェントであるCodeRover-Sと組み合わせることで,トークンコストを45.9%削減し,ARVO上でのバグフィックス率を73.5%(+29.6%)に向上させることができた。
参考スコア（独自算出の注目度）: 26.981770213053004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of bug-finding techniques has led to the discovery of more vulnerabilities than developers can reasonably fix, creating an urgent need for effective Automated Program Repair (APR) methods. However, the complexity of modern bugs often makes precise root cause analysis difficult and unreliable. To address this challenge, we propose crash-site repair to simplify the repair task while still mitigating the risk of exploitation. In addition, we introduce a template-guided patch generation approach that significantly reduces the token cost of Large Language Models (LLMs) while maintaining both efficiency and effectiveness. We implement our prototype system, WILLIAMT, and evaluate it against state-of-the-art APR tools. Our results show that, when combined with the top-performing agent CodeRover-S, WILLIAMT reduces token cost by 45.9% and increases the bug-fixing rate to 73.5% (+29.6%) on ARVO, a ground-truth open source software vulnerabilities benchmark. Furthermore, we demonstrate that WILLIAMT can function effectively even without access to frontier LLMs: even a local model running on a Mac M4 Mini achieves a reasonable repair rate. These findings highlight the broad applicability and scalability of WILLIAMT.
Abstract（参考訳）: バグフィニング技術の急速な進歩により、開発者が合理的に修正できるよりも多くの脆弱性が発見され、効果的な自動プログラム修正(APR)メソッドが緊急に必要になる。しかし、現代のバグの複雑さは、しばしば正確な根本原因分析を難しく、信頼できないものにする。この課題に対処するため、我々は、なおも搾取のリスクを軽減しつつ、修理作業の簡素化を図るクラッシュサイト修復を提案する。さらに,大規模言語モデル(LLM)のトークンコストを大幅に削減し,効率と有効性を両立させるテンプレート誘導型パッチ生成手法を提案する。我々はプロトタイプシステムであるWILLIAMTを実装し、最先端のAPRツールに対して評価する。我々の結果は、トップパフォーマンスエージェントのCodeRover-Sと組み合わせることで、WILLIAMTはトークンコストを45.9%削減し、オープンソースの脆弱性ベンチマークであるARVO上でのバグフィックス率を73.5%(+29.6%)に向上することを示した。さらに,WILLIAMT がフロンティア LLM にアクセスしなくても効果的に機能できることを実証した。これらの知見は、WILLIAMTの幅広い適用性と拡張性を示している。

関連論文リスト

Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
APRMCTS: Improving LLM-based Automated Program Repair with Iterative Tree Search [6.314858275160081]
APRMCTS はモンテカルロ木探索 (MCTS) をパッチ探索に取り入れ、探索されたパッチのグローバル評価を行い、改良と生成のために最も有望なパッチを選択する。 Defects4Jの835のバグに関する実験では、GPT-3.5と統合すると、APRMCTSは合計201のバグを修正でき、すべての最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2025-07-02T15:44:12Z)
The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models [48.073219761367184]
複数出力の生成と複数ラウンドの反復のバランスをとるAPRパイプラインについて検討する。 3つのサイズ(1K, 30K, 65K)と2つのテクニック(フルファインチューニングとLoRA)を持つAPRデータセット上で各モデルを微調整する。その結果,微調整データセットのごく一部(1%)しか使用せず,最大78%の改善が達成できた。
論文参考訳（メタデータ） (2025-05-05T18:06:51Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
LLM4CVE: Enabling Iterative Automated Vulnerability Repair with Large Language Models [9.946058168276744]
大規模言語モデル(LLM)は、多くのソフトウェア欠陥が自動的にパッチを当てられる可能性を開放した。実世界のコードで脆弱な関数を高い精度で堅牢に修正する反復パイプラインを提案する。また,Llama 370Bでは,人間の検証による品質スコアが8.51/10,Llama 370Bでは20%に向上した。
論文参考訳（メタデータ） (2025-01-07T00:21:42Z)
There are More Fish in the Sea: Automated Vulnerability Repair via Binary Templates [4.907610470063863]
本稿では,Javaバイナリに対するテンプレートベースの自動脆弱性修復手法を提案する。 Vul4Jデータセットの実験では、TemVURが11の脆弱性の修正に成功した。 TemVURの一般化性を評価するため、MaryVuls4Jデータセットをキュレートする。
論文参考訳（メタデータ） (2024-11-27T06:59:45Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
APPATCH: Automated Adaptive Prompting Large Language Models for Real-World Software Vulnerability Patching [24.958856670970366]
本稿では,事前学習言語モデル(LLM)のパワーとメリットを活用し,脆弱性の自動パッチングを実現する。脆弱なコードの振る舞いを効果的に推論するために,LLMを応用するために,脆弱性セマンティックス推論と適応的プロンプトを導入する。 97のゼロデイ脆弱性と20の既存脆弱性に対するAPの評価は、既存の手法と最先端の非LLM技術の両方に優れた性能を示している。
論文参考訳（メタデータ） (2024-08-24T14:51:50Z)
On The Effectiveness of Dynamic Reduction Techniques in Automated Program Repair [1.7767466724342067]
本稿では,大規模バグ修正プログラムを効果的に処理するプログラム修復フレームワークについて述べる。このフレームワークは、プログラムスライシングの形式でプログラムの削減を利用して、修正中のバグとは無関係にコードの一部を除去する。広く使用されているDefects4Jデータセットに対する実験結果から,修復品質の劣化を伴わずに,大幅な性能向上が達成できることが判明した。
論文参考訳（メタデータ） (2024-06-23T21:35:07Z)
Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文参考訳（メタデータ） (2024-06-03T05:05:12Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。