論文の概要: A Systematic Study of Code Obfuscation Against LLM-based Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2512.16538v1
- Date: Thu, 18 Dec 2025 13:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.081168
- Title: A Systematic Study of Code Obfuscation Against LLM-based Vulnerability Detection
- Title(参考訳): LLMによる脆弱性検出に対するコードの難読化に関する体系的研究
- Authors: Xiao Li, Yue Li, Hao Wu, Yue Zhang, Yechao Zhang, Fengyuan Xu, Sheng Zhong,
- Abstract要約: 我々は,難読化手法の構造化された体系化を行い,それらを統一された枠組みで評価する。
我々は、一貫したLCM駆動アプローチを用いて、4つのプログラミング言語(Solidity、C、C++、Python)でこれらのテクニックを実装した。
LLMによる脆弱性検出には,コード難読化の正と負の両方の影響がみられた。
- 参考スコア(独自算出の注目度): 21.93412188907902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly adopted for code vulnerability detection, their reliability and robustness across diverse vulnerability types have become a pressing concern. In traditional adversarial settings, code obfuscation has long been used as a general strategy to bypass auditing tools, preserving exploitability without tampering with the tools themselves. Numerous efforts have explored obfuscation methods and tools, yet their capabilities differ in terms of supported techniques, granularity, and programming languages, making it difficult to systematically assess their impact on LLM-based vulnerability detection. To address this gap, we provide a structured systematization of obfuscation techniques and evaluate them under a unified framework. Specifically, we categorize existing obfuscation methods into three major classes (layout, data flow, and control flow) covering 11 subcategories and 19 concrete techniques. We implement these techniques across four programming languages (Solidity, C, C++, and Python) using a consistent LLM-driven approach, and evaluate their effects on 15 LLMs spanning four model families (DeepSeek, OpenAI, Qwen, and LLaMA), as well as on two coding agents (GitHub Copilot and Codex). Our findings reveal both positive and negative impacts of code obfuscation on LLM-based vulnerability detection, highlighting conditions under which obfuscation leads to performance improvements or degradations. We further analyze these outcomes with respect to vulnerability characteristics, code properties, and model attributes. Finally, we outline several open problems and propose future directions to enhance the robustness of LLMs for real-world vulnerability detection.
- Abstract(参考訳): コード脆弱性検出には,大規模言語モデル(LLM)がますます採用されているため,さまざまな脆弱性タイプに対する信頼性と堅牢性が懸念されている。
従来の逆境設定では、コード難読化は監査ツールをバイパスし、ツール自体を改ざんすることなく、悪用性を維持する一般的な戦略として長い間使われてきた。
多くの努力が難読化手法やツールを探索してきたが、その能力はサポートされた技術、粒度、プログラミング言語によって異なり、LLMベースの脆弱性検出に対する彼らの影響を体系的に評価することは困難である。
このギャップに対処するため、私たちは難読化手法の構造化された体系化を行い、それらを統一された枠組みで評価する。
具体的には,既存の難読化手法を,11のサブカテゴリと19の具体的な技術を含む3つの主要なクラス(レイアウト,データフロー,制御フロー)に分類する。
我々は、一貫したLCM駆動アプローチを用いて、4つのプログラミング言語(Solidity、C、C++、Python)でこれらの技術を実装し、その効果を4つのモデルファミリー(DeepSeek、OpenAI、Qwen、LLaMA)と2つのコーディングエージェント(GitHub Copilot、Codex)で評価する。
以上の結果から,コード難読化がLLMに基づく脆弱性検出に与える影響は肯定的かつ否定的であり,難読化が性能改善や劣化につながる条件を強調した。
さらに、脆弱性の特徴、コード特性、モデル属性について、これらの結果を分析します。
最後に、いくつかのオープンな問題を概説し、現実の脆弱性検出のためのLLMの堅牢性を高めるための今後の方向性を提案する。
関連論文リスト
- Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - Guiding AI to Fix Its Own Flaws: An Empirical Study on LLM-Driven Secure Code Generation [16.29310628754089]
大規模言語モデル(LLM)は、コードの自動生成のための強力なツールになっている。
LLMは、しばしば重要なセキュリティプラクティスを見落とし、安全でないコードを生成する。
本稿では、安全性の低いコードを生成するための固有の傾向、自己生成する脆弱性ヒントによってガイドされた場合にセキュアなコードを生成する能力、フィードバックレベルが異なる場合に脆弱性を修復する効果について検討する。
論文 参考訳(メタデータ) (2025-06-28T23:24:33Z) - JsDeObsBench: Measuring and Benchmarking LLMs for JavaScript Deobfuscation [34.88009582470047]
大規模言語モデル(LLM)は、最近、難読化プロセスを自動化することを約束している。
JsDeObsBench は JS の難読化の文脈において LLM の有効性を厳格に評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-06-25T06:50:13Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities [0.49157446832511503]
大規模言語モデル (LLM) はソフトウェア工学において有望であるが、バイナリ解析の有効性は未定である。
組立コードの難読化のための商用LCMの総合評価を行った。
論文 参考訳(メタデータ) (2025-05-26T12:16:44Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。