論文の概要: Lightweight Vulnerability Detection from Code Metrics and Token Features
- arxiv url: http://arxiv.org/abs/2605.04260v1
- Date: Tue, 05 May 2026 19:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.524446
- Title: Lightweight Vulnerability Detection from Code Metrics and Token Features
- Title(参考訳): コードメトリクスとトークン特徴からの軽量脆弱性検出
- Authors: Chun Yin Chiu,
- Abstract要約: このプリプリントは、生の関数テキストからのスパーストークンn-gramと安価なコードメトリクスの小さなセットを組み合わせた軽量な関数レベルの脆弱性トリアージパイプラインについて研究する。
以上の結果から, 単純トークンとメートル法の特徴は, 透過的ベースラインとして有用であるが, 表面の語彙的手がかりに敏感であり, クロスプロジェクト移動が限定的であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vulnerability detection for C/C++ code increasingly relies on heavy representations such as code graphs and deep models, while many practical workflows still benefit from fast and reproducible ranking baselines for human triage. This preprint studies a lightweight function-level vulnerability triage pipeline that combines sparse token n-grams from raw function text with a small set of inexpensive code metrics, including NLOC, approximate cyclomatic complexity, token count, maximum brace depth, and parameter count. We use TF-IDF token features and a class-weighted logistic regression classifier, avoiding deep learning, transformers, and program graphs. Using the Devign function-level labels, we evaluate random and cross-project settings, including a FFmpeg-to-QEMU transfer experiment. We emphasize precision-recall AUC and Recall@10% as ranking-oriented metrics for skewed or triage-oriented workloads. On the random split, the best combined variant reaches PR-AUC 0.642 and Recall@10% 0.161, while cross-project generalization is substantially harder, with PR-AUC around 0.436. We further report ablations, test-only identifier-renaming robustness, and end-to-end efficiency. The results suggest that simple token and metric features provide a useful transparent baseline, but also expose sensitivity to superficial lexical cues and limited cross-project transfer.
- Abstract(参考訳): C/C++コードの脆弱性検出は、コードグラフやディープモデルといった重い表現にますます依存している。
このプリプリントは、生の関数テキストからのスパーストークンn-gramと、NLOC、近似シクロマティック複雑性、トークンカウント、最大ブラス深さ、パラメータカウントを含む、安価なコードメトリクスのセットを組み合わせた、軽量な関数レベルの脆弱性トリアージパイプラインを研究する。
TF-IDFトークン機能とクラス重み付きロジスティック回帰分類器を用いて,ディープラーニング,トランスフォーマー,プログラムグラフを回避する。
Devign関数レベルラベルを用いて、FFmpeg-to-QEMU転送実験を含むランダムおよびクロスプロジェクト設定を評価する。
我々は、スキューやトリアージ指向のワークロードのランキング指向の指標として、AUCとRecall@10%の精度を強調した。
ランダムスプリットでは、最良の組み合わせはPR-AUC 0.642 と Recall@10% 0.161 に達するが、クロスプロジェクト一般化はより困難であり、PR-AUC は約 0.436 である。
さらに、改善、テストのみの識別子リネームロバスト性、エンドツーエンドの効率を報告します。
以上の結果から, 単純なトークンとメートル法の特徴は, 透過的ベースラインとして有用であるとともに, 表面の語彙的手がかりに対する感度や, プロジェクト間移動の制限にも有効であることが示唆された。
関連論文リスト
- Towards Improved Sentence Representations using Token Graphs [41.412173502714225]
GLOTは構造を意識したプールモジュールで、リレーショナル学習後にアグリゲーションとしてプールを再構成する。
トークンの90%がランダムなイントラクタである診断ストレステストでは、GLOTは97%以上の精度を維持し、ベースラインメソッドは崩壊する。
GLUEやMTEBのようなベンチマークの最先端技術と競合し、トレーニング可能なパラメータは20倍少なく、パラメータ効率のよい微調整手法と比較してトレーニング時間を100倍以上高速化する。
論文 参考訳(メタデータ) (2026-03-03T09:00:01Z) - Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting [118.93173826110815]
高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
論文 参考訳(メタデータ) (2025-11-08T03:08:03Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding [28.76164449548306]
MDSD(Multi-Draft Speculative Decoding)は、より小さなドラフトモデルを用いて複数のトークンシーケンスを生成することで、有望なソリューションを提供する。
線形計算オーバーヘッドのみで受け入れ率を向上するMDSDの新しい,効率的なサンプリング検証手法であるSpecHubを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:47:07Z) - Zero-Shot Detection of LLM-Generated Text using Token Cohesiveness [6.229124658686219]
我々は,既存のゼロショット検出器を改善するために,トークン凝集性をプラグアンドプレイモジュールとして利用する汎用的なデュアルチャネル検出パラダイムを開発した。
トークンの凝集度を計算するために,ランダムなトークンの削除と意味的差分測定を数ラウンドで行う。
各種データセット,ソースモデル,評価設定の4つの最先端ベース検出器を用いた実験は,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-09-25T13:18:57Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。