Fugu-MT 論文翻訳(概要): Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs

論文の概要: Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs

arxiv url: http://arxiv.org/abs/2507.20977v1
Date: Mon, 28 Jul 2025 16:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 16:23:58.211282
Title: Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs
Title（参考訳）: 目に見えない手のない脆弱性の修復 : LLMの異なる複製研究
Authors: Maria Camporese, Fabio Massacci,
Abstract要約: 自動脆弱性修復(AVR: Automated Vulnerability repair)は、プログラム修復の急激な分岐である。近年の研究では、大きな言語モデル(LLM)が従来の手法より優れていることが示されている。
参考スコア（独自算出の注目度）: 5.10123605644148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Background: Automated Vulnerability Repair (AVR) is a fast-growing branch of program repair. Recent studies show that large language models (LLMs) outperform traditional techniques, extending their success beyond code generation and fault detection. Hypothesis: These gains may be driven by hidden factors -- "invisible hands" such as training-data leakage or perfect fault localization -- that let an LLM reproduce human-authored fixes for the same code. Objective: We replicate prior AVR studies under controlled conditions by deliberately adding errors to the reported vulnerability location in the prompt. If LLMs merely regurgitate memorized fixes, both small and large localization errors should yield the same number of correct patches, because any offset should divert the model from the original fix. Method: Our pipeline repairs vulnerabilities from the Vul4J and VJTrans benchmarks after shifting the fault location by n lines from the ground truth. A first LLM generates a patch, a second LLM reviews it, and we validate the result with regression and proof-of-vulnerability tests. Finally, we manually audit a sample of patches and estimate the error rate with the Agresti-Coull-Wilson method.
Abstract（参考訳）: 背景: AVR(Automated Vulnerability repair)は、プログラム修復の急激な分岐である。近年の研究では,大規模言語モデル(LLM)が従来の手法より優れており,コード生成や障害検出を超えてその成功が拡大している。仮説: これらの利得は、トレーニングデータ漏洩や完全なフォールトローカライゼーションのような"見えない手"という隠れた要因によって引き起こされる可能性がある。目的: 制御条件下でのAVR以前の研究を, 報告された脆弱性箇所に意図的にエラーを付加することにより, 再現する。 LLMが単に記憶された修正をリグルジするだけなら、小さなローカライズエラーと大きなローカライゼーションエラーの両方で、同じ数のパッチが生成されるはずだ。方法:Vul4JとVJTransのベンチマークから,基盤真実からn行の故障位置をシフトした後に,パイプラインが脆弱性を修復する。第1のLLMはパッチを生成し、第2のLLMはパッチをレビューし、回帰テストと加重性証明テストで結果を検証する。最後に、手動でパッチのサンプルを検査し、Agresti-Coull-Wilson法による誤差率を推定する。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 LLMはコード生成時にエラーの蓄積に影響を受けやすい。コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文参考訳（メタデータ） (2024-11-11T16:39:13Z)
Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文参考訳（メタデータ） (2024-09-01T09:40:15Z)
ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data [8.667471866135367]
教師付き学習ベースの脆弱性検知器は、ラベル付きトレーニングデータに制限があるため、しばしば不足する。本稿では,脆弱性検出を異常検出として再設定する。
論文参考訳（メタデータ） (2024-08-28T03:28:17Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Aligning the Objective of LLM-based Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文参考訳（メタデータ） (2024-03-01T03:29:54Z)
GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。 GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。 GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
論文参考訳（メタデータ） (2024-02-19T21:45:55Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。