論文の概要: Search-Induced Issues in Web-Augmented LLM Code Generation: Detecting and Repairing Error-Inducing Pages
- arxiv url: http://arxiv.org/abs/2603.26091v1
- Date: Fri, 27 Mar 2026 05:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.364808
- Title: Search-Induced Issues in Web-Augmented LLM Code Generation: Detecting and Repairing Error-Inducing Pages
- Title(参考訳): Web 拡張 LLM コード生成における検索による問題:エラー発生ページの検出と修復
- Authors: Guoqing Wang, Zeyu Sun, Xiaofei Xie, Yizhou Chen, Yanchao Tan, Yifan Zhao, Dan Hao,
- Abstract要約: Webの拡張された大規模言語モデル(LLM)は、自動コード生成に有望な機能を提供する。
Live Web Searchは、信頼できないまたは悪意のあるコンテンツにモデルを公開し、検索誘導問題に繋がる(SII)
サービスプロバイダが積極的にWeb拡張システムを保護するための自動化フレームワークであるSherlockを提案する。
- 参考スコア(独自算出の注目度): 38.96179816585195
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Web-augmented large language models (LLMs) offer promising capabilities for automatic code generation. However, integrating live web search exposes models to unreliable or malicious content, leading to Search-Induced Issues (SII), a novel failure mode in which external pages mislead LLMs into producing incorrect code. This paper presents a comprehensive empirical study of the prevalence and impact of SII across three commercial search APIs and six advanced LLMs. Our analysis reveals that all evaluated web-augmented LLMs are vulnerable to SII, with root causes arising from either misaligned specifications or flawed code implementations in the searched Error-Inducing Pages (EIPs). To address this challenge, we propose Sherlock, an automated framework that enables LLM service providers to proactively safeguard web-augmented generation systems at scale. Sherlock operates as a continuous pipeline that first detects potential SII instances, then debugs them to identify the responsible EIPs and pinpoint their root causes, and finally repairs them by either annotating misaligned content or replacing erroneous code snippets with evaluated solutions from trusted sources. Experiments show that Sherlock identifies EIPs with an F1 score of up to 95% and repairs 71% to 100% of affected generations across the evaluated models, with modest computational overhead. Our findings and framework provide practical guidance for improving the reliability of web-augmented LLM-based code generation systems in real-world software engineering scenarios.
- Abstract(参考訳): Webの拡張された大規模言語モデル(LLM)は、自動コード生成に有望な機能を提供する。
しかし、ライブウェブ検索の統合は、モデルを信頼できないまたは悪意のあるコンテンツに公開し、検索誘導問題(SII)に繋がる。
本稿では,3つの商用検索APIと6つの先進LDMにおけるSIIの有病率と影響について,総合的研究を行った。
分析の結果,Web 拡張 LLM はすべて SII に脆弱性があることが判明した。
この課題に対処するために、私たちは、LLMサービスプロバイダが大規模にWeb拡張された生成システムを積極的に保護できる自動化フレームワークであるSherlockを提案する。
Sherlockは、SIIインスタンスを最初に検出し、責任あるEIPを特定して根本原因を特定できるようにデバッグする継続的パイプラインとして動作し、最後に、誤ったコンテンツに注釈を付けたり、誤ったコードスニペットを信頼できるソースから評価されたソリューションに置き換えることで、それらを修復する。
実験の結果、SherlockはF1スコアの最大95%でEIPを識別し、評価されたモデル全体で影響のある世代のうち71%から100%を修復する。
本研究の成果とフレームワークは,実世界のソフトウェア工学シナリオにおけるLLMベースのコード生成システムの信頼性向上のための実践的ガイダンスを提供する。
関連論文リスト
- LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python [0.0]
ChatGPT-4、Claude 3、LLaMA 4のような大規模言語モデル(LLM)は、ソフトウェア/アプリケーション開発にますます組み込まれている。
本研究では,プログラムエラー,古典的セキュリティ欠陥,およびC++とPythonの高度なプロダクショングレードバグのベンチマークを用いて,これら3つの主要なLCMの体系的,実証的な評価を行う。
論文 参考訳(メタデータ) (2025-08-22T14:30:24Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Detecting Phishing Sites Using ChatGPT [2.3999111269325266]
本稿では,大規模言語モデル(LLM)を用いてフィッシングサイトを検出するChatPhishDetectorという新しいシステムを提案する。
本システムでは,Webクローラを利用してWebサイトから情報を収集し,クローリングデータに基づいてLLMのプロンプトを生成し,LLMが生成した応答から検出結果を取得する。
GPT-4Vを用いた実験結果は、98.7%の精度と99.6%のリコールで優れた性能を示し、他のLLMや既存のシステムよりも優れていた。
論文 参考訳(メタデータ) (2023-06-09T11:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。