論文の概要: LLaVul: A Multimodal LLM for Interpretable Vulnerability Reasoning about Source Code
- arxiv url: http://arxiv.org/abs/2509.17337v1
- Date: Mon, 22 Sep 2025 03:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.226033
- Title: LLaVul: A Multimodal LLM for Interpretable Vulnerability Reasoning about Source Code
- Title(参考訳): LLaVul: ソースコードに関する解釈可能な脆弱性推論のためのマルチモーダルLLM
- Authors: Ala Jararweh, Michael Adams, Avinash Sahu, Abdullah Mueen, Afsah Anwar,
- Abstract要約: 現在の多くのアプローチでは、脆弱性分析を分類タスクとして重視しており、ニュアンスとコンテキストに依存した実世界のシナリオを単純化している。
LLaVulは,質問応答(QA)によるコードに対するきめ細かい推論を実現するために設計された,多モーダルな大規模言語モデルである。
我々のモデルは、ペア化されたコードと自然なクエリを統一された空間に統合し、コードの脆弱性に関する推論とコンテキストに依存した洞察を強化するように訓練されている。
- 参考スコア(独自算出の注目度): 6.653551361032263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing complexity in software systems places a growing demand on reasoning tools that unlock vulnerabilities manifest in source code. Many current approaches focus on vulnerability analysis as a classifying task, oversimplifying the nuanced and context-dependent real-world scenarios. Even though current code large language models (LLMs) excel in code understanding, they often pay little attention to security-specific reasoning. We propose LLaVul, a multimodal LLM tailored to provide fine-grained reasoning about code through question-answering (QA). Our model is trained to integrate paired code and natural queries into a unified space, enhancing reasoning and context-dependent insights about code vulnerability. To evaluate our model performance, we construct a curated dataset of real-world vulnerabilities paired with security-focused questions and answers. Our model outperforms state-of-the-art general-purpose and code LLMs in the QA and detection tasks. We further explain decision-making by conducting qualitative analysis to highlight capabilities and limitations. By integrating code and QA, LLaVul enables more interpretable and security-focused code understanding.
- Abstract(参考訳): ソフトウェアシステムの複雑さが増すにつれ、ソースコードに現れる脆弱性をアンロックする推論ツールへの需要が高まっている。
現在の多くのアプローチでは、脆弱性分析を分類タスクとして重視しており、ニュアンスとコンテキストに依存した実世界のシナリオを単純化している。
現在のコード大言語モデル(LLM)はコード理解に優れているが、セキュリティ固有の推論にはほとんど注意を払わないことが多い。
LLaVulはQA(Qanguage-Awering)によるコードに対するきめ細かい推論を実現するために設計されたマルチモーダルLLMである。
我々のモデルは、ペア化されたコードと自然なクエリを統一された空間に統合し、コードの脆弱性に関する推論とコンテキストに依存した洞察を強化するように訓練されている。
モデル性能を評価するために,セキュリティに焦点をあてた質問や回答と組み合わせた実世界の脆弱性のキュレートされたデータセットを構築した。
我々のモデルは、QAおよび検出タスクにおいて、最先端の汎用およびコードLLMよりも優れています。
さらに、質的な分析を行い、能力と限界を強調することで意思決定をさらに説明します。
コードとQAを統合することで、LLaVulはより解釈可能でセキュリティを重視したコード理解を可能にする。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。
スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。
また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文 参考訳(メタデータ) (2025-06-30T21:10:19Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。
LLMはプログラマが知らない脆弱性を導入する可能性がある。
コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文 参考訳(メタデータ) (2024-12-19T16:20:22Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。