論文の概要: Learning Generalizable Multimodal Representations for Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2604.25711v2
- Date: Thu, 30 Apr 2026 08:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.662148
- Title: Learning Generalizable Multimodal Representations for Software Vulnerability Detection
- Title(参考訳): ソフトウェア脆弱性検出のための一般化可能なマルチモーダル表現の学習
- Authors: Zeming Dong, Yuejun Guo, Qiang Hu, Yao Zhang, Maxime Cordy, Hao Liu, Mike Papadakis, Yongqiang Lyu,
- Abstract要約: コードとコメントの表現を2つの類似性学習と整合性正規化によって調整するフレームワークであるMultiVulを提案する。
広く採用されているDiverseVulデータセットとDevignデータセットの実験によると、MultiVulはプロンプトベースの手法よりも最大27.07%のF1改善を実現している。
- 参考スコア(独自算出の注目度): 25.453510500843688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code and its accompanying comments are complementary yet naturally aligned modalities-code encodes structural logic while comments capture developer intent. However, existing vulnerability detection methods mostly rely on single-modality code representations, overlooking the complementary semantic information embedded in comments and thus limiting their generalization across complex code structures and logical relationships. To address this, we propose MultiVul, a multimodal contrastive framework that aligns code and comment representations through dual similarity learning and consistency regularization, augmented with diverse code-text pairs to improve robustness. Experiments on widely adopted DiverseVul and Devign datasets across four large language models (LLMs) (i.e., DeepSeek-Coder-6.7B, Qwen2.5-Coder-7B, StarCoder2-7B, and CodeLlama-7B) show that MultiVul achieves up to 27.07% F1 improvement over prompting-based methods and 13.37% over code-only Fine-Tuning, while maintaining comparable inference efficiency.
- Abstract(参考訳): ソースコードとその付随するコメントは相補的だが自然に一致したモダリティ-コードは構造論理をエンコードし、コメントは開発者の意図をキャプチャする。
しかし、既存の脆弱性検出方法は、コメントに埋め込まれた補完的な意味情報を見渡すことで、複雑なコード構造と論理的関係をまたいだ一般化を制限し、主に単一モダリティのコード表現に依存している。
これを解決するために,多モードのコントラストフレームワークであるMultiVulを提案する。
4つの大きな言語モデル(LLM)で広く採用されているDiverseVulとDevignデータセット(例えば、DeepSeek-Coder-6.7B、Qwen2.5-Coder-7B、StarCoder2-7B、CodeLlama-7B)の実験によると、MultiVulはプロンプトベースのメソッドよりも最大27.07%、コードのみのファインタニングよりも13.37%、推論効率は同等である。
関連論文リスト
- Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。
CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-04T07:37:59Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval [0.0]
本稿では,階層型コードグラフ要約(HCGS)を提案する。これは,コードグラフからボトムアップ形式で構造化された要約を生成することによって,aの多層表現を構築する新しいアプローチである。
HCGSは、従来のコードのみの検索をすべてのメトリクスで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-11T20:57:27Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。