論文の概要: Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software
- arxiv url: http://arxiv.org/abs/2602.04894v1
- Date: Mon, 02 Feb 2026 22:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.51287
- Title: Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software
- Title(参考訳): ブラックボックスLCM生成ソフトウェアからの再帰脆弱性の抽出
- Authors: Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson,
- Abstract要約: 本稿では2つのコンポーネントを持つemphFeature-Security Table (FSTab)を紹介する。
FSTabは、バックエンドコードやソースコードにアクセスせずに、潜在的にバックエンドの脆弱性を予測するブラックボックス攻撃を可能にする。
我々は、GPT-5.2、Claude-4.5 Opus、Gemini-3 Proを含む最先端のLLM上でFSTabを評価する。
- 参考スコア(独自算出の注目度): 1.587618661944613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly used for code generation, but their outputs often follow recurring templates that can induce predictable vulnerabilities. We study \emph{vulnerability persistence} in LLM-generated software and introduce \emph{Feature--Security Table (FSTab)} with two components. First, FSTab enables a black-box attack that predicts likely backend vulnerabilities from observable frontend features and knowledge of the source LLM, without access to backend code or source code. Second, FSTab provides a model-centric evaluation that quantifies how consistently a given model reproduces the same vulnerabilities across programs, semantics-preserving rephrasings, and application domains. We evaluate FSTab on state-of-the-art code LLMs, including GPT-5.2, Claude-4.5 Opus, and Gemini-3 Pro, across diverse application domains. Our results show strong cross-domain transfer: even when the target domain is excluded from training, FSTab achieves up to 94\% attack success and 93\% vulnerability coverage on Internal Tools (Claude-4.5 Opus). These findings expose an underexplored attack surface in LLM-generated software and highlight the security risks of code generation. Our code is available at: https://anonymous.4open.science/r/FSTab-024E.
- Abstract(参考訳): LLMはコード生成にますます使われていますが、その出力はしばしば、予測可能な脆弱性を誘発する繰り返しテンプレートに従っています。
LLM 生成ソフトウェアにおける \emph{vulnerability persistence} について検討し、2つのコンポーネントからなる \emph{Feature--Security Table (FSTab) を紹介する。
まず、FSTabはブラックボックス攻撃を可能にし、バックエンドコードやソースコードにアクセスすることなく、観測可能なフロントエンド機能とソースコードの知識から、潜在的にバックエンドの脆弱性を予測する。
第2に、FSTabは、プログラム、セマンティクス保存リフレッシング、アプリケーションドメイン間で、与えられたモデルが同じ脆弱性をいかに一貫して再現するかを定量化する、モデル中心の評価を提供する。
我々は、GPT-5.2、Claude-4.5 Opus、Gemini-3 Proを含む最先端のLLM上でFSTabを評価する。
対象ドメインがトレーニングから除外されたとしても、FSTabは攻撃成功率94\%、内部ツール(Claude-4.5 Opus)の脆弱性カバレッジ93\%を達成する。
これらの結果は、LLM生成ソフトウェアにおける未探索の攻撃面を明らかにし、コード生成のセキュリティリスクを浮き彫りにする。
私たちのコードは、https://anonymous.4open.science/r/FSTab-024Eで利用可能です。
関連論文リスト
- Trust Me, I Know This Function: Hijacking LLM Static Analysis using Bias [3.178301843099705]
大規模言語モデル(LLM)は、自動化されたコードレビューと静的解析を大規模に実行するようにますます信頼されている。
本稿では,LLMに基づくコード解析において重要な脆弱性を特定し,活用する。
我々は、FPA(Familiar Pattern Attack)をターゲットコードに検出し、注入する、完全に自動化されたブラックボックスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-08-24T13:42:48Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - How Well Do Large Language Models Serve as End-to-End Secure Code Agents for Python? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。
4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。
修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文 参考訳(メタデータ) (2024-08-20T02:42:29Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
我々は,完全に自動化されたLanguage Models(LLM)駆動の,自動Linux特権エスカレーション攻撃用プロトタイプであるHackingBuddyGPTを紹介する。
GPT-4-Turboは高い有効性を示し,33~83%の脆弱性を悪用した。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。