Fugu-MT 論文翻訳(概要): Dissecting the Black Box: Circuit-Level Analysis of LLM Vulnerability Detection

論文の概要: Dissecting the Black Box: Circuit-Level Analysis of LLM Vulnerability Detection

arxiv url: http://arxiv.org/abs/2605.29901v1
Date: Thu, 28 May 2026 13:23:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.341161
Title: Dissecting the Black Box: Circuit-Level Analysis of LLM Vulnerability Detection
Title（参考訳）: ブラックボックスの分離:LCM脆弱性検出の回路レベル解析
Authors: Syafiq Al Atiiq, Chun Zhou, Christian Gehrmann,
Abstract要約: 我々は、ニューラルネットワークの内部計算を分析し、その推論過程を理解する。 Gemma-2-2b上のCircuit Tracerを用いて、モデルが472 C/C++コードサンプルを脆弱性または安全性として分類したときに起動する計算経路をトレースする。
参考スコア（独自算出の注目度）: 1.9298849497208217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) can detect software vulnerabilities, but how do they actually identify vulnerable code? We address this question using mechanistic interpretability; analyzing the internal computations of a neural network to understand its reasoning process.Using Circuit Tracer on Gemma-2-2b, we trace the computational pathways activated when the model classifies 472 C/C++ code samples as vulnerable or safe. Our analysis reveals a surprising finding: the model primarily relies on safety detectors, attention heads that recognize safe coding patterns, rather than directly detecting vulnerability signatures. When these safety detectors fail to activate, the model classifies code as vulnerable. We identify the critical neural components: specific attention heads in early layers (L5, L7) that focus on safety patterns, and Multilayer Perceptron (MLP) neurons in Layer 7 that encode vulnerability-related features. Ablation experiments confirm their causal role; removing Layer 11 drops vulnerability detection accuracy from 100% to 6%, while ablating just 20 neurons in Layer 7 reduces it by 50%.Our findings show that LLM vulnerability detection uses sparse, interpretable circuits (only 16% of model capacity), enabling circuit-level explanations for security predictions and targeted improvements to detection systems.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェアの脆弱性を検出することができるが、どのようにして脆弱性のあるコードを識別するのか? メカニスティックな解釈可能性を用いてこの問題に対処し、ニューラルネットワークの内部計算を分析して推論プロセスを理解する。Gemma-2-2b上のサーキットトレーサを用いて、モデルが472 C/C++コードサンプルを脆弱または安全であると分類した場合に起動される計算経路をトレースする。モデルは主に、脆弱性の署名を直接検出するのではなく、安全なコーディングパターンを認識するアテンションヘッドであるセーフティ検出器に依存しています。これらの安全検出器がアクティベートできない場合、モデルは脆弱性のあるコードを分類する。安全パターンに焦点を当てた初期レイヤ(L5,L7)の特定の注意ヘッドと、脆弱性に関連する機能をエンコードするレイヤ7の多層パーセプトロン(MLP)ニューロンである。レイヤ11の除去は脆弱性検出の精度を100%から6%に低下させ、レイヤ7の20個のニューロンのみを非難することで、それを50%削減する。 LLMの脆弱性検出はスパース回路(モデル容量の16%)を用いており、セキュリティ予測のための回路レベルの説明を可能にし、検出システムの改善を目標としている。

関連論文リスト

EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy [66.59724477993339]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。私たちのコードはまもなく公開されます。
論文参考訳（メタデータ） (2026-05-15T08:01:32Z)
ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems [56.613157564882925]
悪意のある行動は、一見良心的なツールに埋め込まれ、エージェントの実行を静かにハイジャックしたり、機密データをリークしたり、無許可のアクションをトリガーしたりする。影響は拡大しているが、このような脅威を評価するための包括的なベンチマークは今のところ存在しない。実ネットワークの相互作用を観測してサプライチェーン中毒を検出するネットワークレベルのガードレールフレームワークであるShieldNetを提案する。
論文参考訳（メタデータ） (2026-04-06T05:15:00Z)
DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文参考訳（メタデータ） (2025-09-29T05:17:10Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。 InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文参考訳（メタデータ） (2025-05-08T13:04:45Z)
Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons [57.07507194465299]
大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。安全行動の責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
論文参考訳（メタデータ） (2024-06-20T09:35:22Z)
SliceLocator: Locating Vulnerable Statements with Graph-based Detectors [33.395068754566935]
SliceLocatorは、すべての潜在的な脆弱性トリガリングステートメントから、最も重み付けされたフローパスを選択することで、最も関連性の高いテントフローを特定する。 SliceLocatorは、最先端の4つのGNNベースの脆弱性検知器で一貫して動作することを示す。
論文参考訳（メタデータ） (2024-01-05T10:15:04Z)
Deep-Learning-based Vulnerability Detection in Binary Executables [0.0]
本稿では,リカレントニューラルネットワークを用いた教師付き深層学習手法を提案する。 LLVM中間表現を標準化した形で、脆弱なコードの50,651個のデータセットを使用する。任意の脆弱性の存在を検出するためにバイナリ分類が確立され、正確な脆弱性を特定するためにマルチクラスモデルが訓練された。
論文参考訳（メタデータ） (2022-11-25T10:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。