論文の概要: SAGE: Signal-Amplified Guided Embeddings for LLM-based Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2604.19031v1
- Date: Tue, 21 Apr 2026 03:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.597448
- Title: SAGE: Signal-Amplified Guided Embeddings for LLM-based Vulnerability Detection
- Title(参考訳): SAGE:LSMによる脆弱性検出のための信号増幅型ガイド埋め込み
- Authors: Zhengyang Shan, Xu Qian, Jiayun Xin, Minghui Xu, Yue Zhang, Zhen Yang, Hao Wu, Xiuzhen Cheng,
- Abstract要約: TextbfSAGEは、受動的信号沈下からアクティブ信号回復に移行するフレームワークである。
SAGEは13言語で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 23.9318365961346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software vulnerabilities are a primary threat to modern infrastructure. While static analysis and Graph Neural Networks have long served as the foundation for vulnerability detection, the emergence of Large Language Models (LLMs) has introduced a transformative paradigm driven by superior semantic reasoning and cross-environment generalization. However, in the context of LLM-based vulnerability detection, we identify a fundamental bottleneck in these models termed \textbf{Signal Submersion}: a state where features related to vulnerability are activated internally but numerically overwhelmed by dominant functional semantics. To address this, we propose \textbf{SAGE} (\textbf{S}ignal-\textbf{A}mplified \textbf{G}uided \textbf{E}mbeddings), a framework that shifts from passive signal submersion to active signal recovery. SAGE integrates task-conditional Sparse Autoencoders (SAEs) to isolate and amplify these faint vulnerability signals. Extensive evaluations on BigVul, PrimeVul, and PreciseBugs demonstrate that SAGE achieves state-of-the-art performance. Notably, SAGE mitigates Signal Submersion by increasing the internal Signal-to-Noise Ratio (SNR) by 12.7$\times$ via sparse manifold projection. This mechanistic intervention enables a 7B model to achieve up to 318\% Matthews Correlation Coefficient (MCC) gains on unseen distributions and a 319\% gain on classic datasets. By maintaining robust performance across 13 programming languages and outperforming 34B baselines, SAGE establishes a more efficient and scalable path to software security than simple parameter scaling.
- Abstract(参考訳): ソフトウェア脆弱性は、現代のインフラにとって大きな脅威である。
静的解析とグラフニューラルネットワークは、長い間脆弱性検出の基礎として機能してきたが、Large Language Models(LLM)の出現は、優れたセマンティック推論とクロス環境の一般化によって駆動される変革的パラダイムを導入している。
しかし、LSMに基づく脆弱性検出の文脈では、これらのモデルの基本的なボトルネックである「textbf{Signal Submersion}」は、脆弱性に関連する機能が内部で活性化されるが、支配的な機能的意味論に圧倒される状態である。
そこで本稿では,受動信号のサブマージから能動信号のリカバリに移行するフレームワークである \textbf{SAGE} (\textbf{S}ignal-\textbf{A}mplified \textbf{G}uided \textbf{E}mbeddings) を提案する。
SAGEはタスク条件のスパースオートエンコーダ(SAE)を統合して、これらのかすかな脆弱性信号を分離し増幅する。
BigVul、PrimeVul、PreciseBugsの大規模な評価は、SAGEが最先端のパフォーマンスを達成したことを示している。
特に、SAGEは内部のSNR(Signal-to-Noise Ratio)をスパース多様体射影により12.7$\times$にすることでシグナル沈降を緩和する。
この機械的介入により、7Bモデルは最大318\%のマシューズ相関係数(MCC)を未確認の分布で得ることができ、古典的なデータセットでは319\%のゲインが得られる。
13のプログラミング言語で堅牢なパフォーマンスを維持し、34Bベースラインを上回ることで、SAGEは単純なパラメータスケーリングよりも、ソフトウェアセキュリティへのより効率的でスケーラブルなパスを確立します。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Bridging Semantics & Structure for Software Vulnerability Detection using Hybrid Network Models [0.0]
我々は複雑な相互作用ネットワークとして制御とデータフローの関係を捉えている。
本フレームワークでは,グラフ表現と軽量(4B)局所LLMを組み合わせる。
提案手法は,グラフ注意ネットワークによる埋め込みよりも93.57%の精度で8.36%向上する。
論文 参考訳(メタデータ) (2025-10-11T19:32:00Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - Learning to Focus: Context Extraction for Efficient Code Vulnerability Detection with Language Models [16.23854525619129]
言語モデル(LM)は脆弱性検出の約束を示すが、脆弱で不確実な脆弱性位置のため、長く現実世界のコードに苦労する。
本研究では、LMに基づく脆弱性検出を学習し、センシティブなコンテキストを選択するモデルに依存しないフレームワークであるFocusVulを提案する。
論文 参考訳(メタデータ) (2025-05-23T04:41:54Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。