Fugu-MT 論文翻訳(概要): LPASS: Linear Probes as Stepping Stones for vulnerability detection using compressed LLMs

論文の概要: LPASS: Linear Probes as Stepping Stones for vulnerability detection using compressed LLMs

arxiv url: http://arxiv.org/abs/2505.24451v1
Date: Fri, 30 May 2025 10:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.907811
Title: LPASS: Linear Probes as Stepping Stones for vulnerability detection using compressed LLMs
Title（参考訳）: LPASS:圧縮LDMを用いた脆弱性検出のためのステッピングストーンとしての線形プローブ
Authors: Luis Ibanez-Lissen, Lorena Gonzalez-Manzano, Jose Maria de Fuentes, Nicolas Anciaux,
Abstract要約: 本稿では,Linear Probesを用いて圧縮された大言語モデルの性能を推定する方法を示す。また, レイヤプルーニング圧縮を適用する際に, カットオフ点の設定に適合することを示す。我々のアプローチは、$LPASS$と呼ばれ、480kのC/C++サンプル上で、MITREのTop 25の最も危険な脆弱性を検出するためにBERTとGemmaに適用される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are being extensively used for cybersecurity purposes. One of them is the detection of vulnerable codes. For the sake of efficiency and effectiveness, compression and fine-tuning techniques are being developed, respectively. However, they involve spending substantial computational efforts. In this vein, we analyse how Linear Probes (LPs) can be used to provide an estimation on the performance of a compressed LLM at an early phase -- before fine-tuning. We also show their suitability to set the cut-off point when applying layer pruning compression. Our approach, dubbed $LPASS$, is applied in BERT and Gemma for the detection of 12 of MITRE's Top 25 most dangerous vulnerabilities on 480k C/C++ samples. LPs can be computed in 142.97 s. and provide key findings: (1) 33.3 \% and 72.2\% of layers can be removed, respectively, with no precision loss; (2) they provide an early estimate of the post-fine-tuning and post-compression model effectiveness, with 3\% and 8.68\% as the lowest and average precision errors, respectively. $LPASS$-based LLMs outperform the state of the art, reaching 86.9\% of accuracy in multi-class vulnerability detection. Interestingly, $LPASS$-based compressed versions of Gemma outperform the original ones by 1.6\% of F1-score at a maximum while saving 29.4 \% and 23.8\% of training and inference time and 42.98\% of model size.
Abstract（参考訳）: 大規模言語モデル(LLM)は、サイバーセキュリティの目的で広く使われている。そのうちの1つは、脆弱性のあるコードの検出である。効率性と有効性のために,圧縮技術と微調整技術がそれぞれ開発されている。しかし、それらはかなりの計算努力に費やしている。本稿では, 線形プローブ (LPs) を用いて, 圧縮LDMの性能を推定し, 微調整前に解析する。また, レイヤプルーニング圧縮を適用する際に, カットオフ点の設定に適合することを示す。私たちのアプローチは、$LPASS$と呼ばれ、480kのC/C++サンプル上で、MITREのTop 25の最も危険な脆弱性を検出するためにBERTとGemmaに適用される。 LPは142.97秒で計算できる。そして、(1)精度の低下のないレイヤの33.3 \%と72.2\%を除去し、(2)微調整後のモデルの有効性と圧縮後のモデルの有効性を早期に推定し、それぞれ最低値と平均精度の誤差として8.68\%を推定する。 LPASS$-based LLMsは最先端技術より優れており、マルチクラスの脆弱性検出において86.9%の精度に達した。興味深いことに、$LPASS$ベースのGemmaの圧縮バージョンは、トレーニングと推論の29.4 \%と23.8\%とモデルサイズ42.98\%を節約しながら、F1スコアの1.6\%を最大で上回っている。

関連論文リスト

Efficient Malware Detection with Optimized Learning on High-Dimensional Features [1.3654846342364308]
機械学習を用いたマルウェア検出にはバイナリファイルからの特徴抽出が必要である。一般的な手法として、生の特徴抽出にLIEF、2381次元の特徴ベクトルを生成するためにEMBERベクトル化器がある。本研究では,2つの次元還元手法を適用し,これらの課題に対処する。
論文参考訳（メタデータ） (2025-06-18T06:56:59Z)
SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文参考訳（メタデータ） (2025-06-10T02:24:32Z)
Certified Robustness Under Bounded Levenshtein Distance [55.54271307451233]
畳み込み型分類器のリプシッツ定数をレヴェンシュテイン距離に対して計算する最初の方法を提案する。我々の方法であるLipsLevは、それぞれ18.80ドル%と13.93ドル%の精度を1ドルと2ドルで得ることができる。
論文参考訳（メタデータ） (2025-01-23T13:58:53Z)
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文参考訳（メタデータ） (2024-10-28T00:36:21Z)
Semantic-guided Search for Efficient Program Repair with Large Language Models [0.9319432628663639]
FLAMESは、修復効率とメモリ効率を向上させるためにセマンティック誘導パッチ生成を使用する。 FLAMESは従来のLCMベースのAPRに比べてメモリ消費を最大83%削減する。 FLAMESはDefects4JとHumanEval-Javaデータセットで333と163のバグに対して133と103の修正を成功させた。
論文参考訳（メタデータ） (2024-10-22T02:59:47Z)
Does the Vulnerability Threaten Our Projects? Automated Vulnerable API Detection for Third-Party Libraries [11.012017507408078]
本稿では,TPLの脆弱性の原因となる脆弱性のあるルートメソッドを効果的に同定できるVAScannerを提案する。 VAScannerは、5.78%の偽陽性と2.16%の偽陰性を除去する。脆弱性のあるTPLを使用した3,147のプロジェクトの大規模な分析では、脆弱性のあるAPIによって21.51%のプロジェクトが脅かされていることがわかった。
論文参考訳（メタデータ） (2024-09-04T14:31:16Z)
Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
VulScribeRは、慎重にキュレートされたプロンプトテンプレートを利用して脆弱なデータセットを拡張する新しいソリューションである。我々のアプローチでは、VulgenとVGXの2つのSOTAメソッドを破り、Random Oversampling(ROS)を27.48%、27.93%、f1スコアで15.41%、平均5Kで弱いサンプルを生成した。
論文参考訳（メタデータ） (2024-08-07T23:22:58Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-23T07:38:09Z)
Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers [44.344548601242444]
Weakly-supervised RESidual Transformer (WeakREST) という新しいフレームワークを導入し,高い異常検出精度を実現する。画素単位の異常局所化タスクをブロック単位の分類問題に再構成する。弱いラベルと残差に基づく表現との相互作用を処理できるResMixMatchアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-06-06T08:19:30Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。