論文の概要: Can LLMs Deobfuscate Binary Code? A Systematic Analysis of Large Language Models into Pseudocode Deobfuscation
- arxiv url: http://arxiv.org/abs/2604.08083v1
- Date: Thu, 09 Apr 2026 10:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.871073
- Title: Can LLMs Deobfuscate Binary Code? A Systematic Analysis of Large Language Models into Pseudocode Deobfuscation
- Title(参考訳): LLMはバイナリコードを難読化できるか? 擬似コード難読化への大規模言語モデルの体系的解析
- Authors: Li Hu, Xiuwei Shang, Jieke Shi, Shaoyin Cheng, Junqi Zhang, Gangyang Li, Zhou Yang, Weiming Zhang, David Lo,
- Abstract要約: BinDeObfBenchは、LLMベースのバイナリ難読化を評価するための最初の包括的なベンチマークである。
推論モデルは、激しい難読化の下で堅牢性を維持することができる。
コンテキスト内学習は標準モデルにはメリットがあるが、推論モデルには限界がある。
- 参考スコア(独自算出の注目度): 27.576617126549294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deobfuscating binary code remains a fundamental challenge in reverse engineering, as obfuscation is widely used to hinder analysis and conceal program logic. Although large language models (LLMs) have shown promise in recovering semantics from obfuscated binaries, a systematic evaluation of their effectiveness is still lacking. In this work, we present BinDeObfBench, the first comprehensive benchmark for assessing LLM-based binary deobfuscation across diverse transformations spanning pre-compilation, compile-time, and post-compilation stages. Our evaluation shows that deobfuscation performance depends more on reasoning capability and domain expertise than on model scale, and that task-specific supervised fine-tuning consistently outperforms broad domain pre-training. Reasoning models can maintain robustness under severe obfuscation, generalize across different instruction set architectures (ISAs) and optimization levels. In-context learning benefits standard models but yields limited gains for reasoning models. Overall, our study highlights the importance of task-specific fine-tuning and reasoning-driven strategies, and positions BinDeObfBench as a basis for future work in binary deobfuscation.
- Abstract(参考訳): 難読化は解析を妨げ、プログラムロジックを隠蔽するために広く使われているため、逆エンジニアリングにおいてデオブファスティングバイナリコードは依然として根本的な課題である。
大きな言語モデル(LLM)は難解なバイナリからセマンティクスを復元する可能性を示しているが、その効果の体系的評価はまだ不十分である。
本稿では,コンパイル前,コンパイル後,コンパイル後の各段階にまたがる多種多様な変換におけるLLMベースのバイナリ難読化を評価するための,最初の包括的なベンチマークであるBinDeObfBenchを紹介する。
評価の結果、難読化性能は、モデルスケールよりも推論能力やドメインの専門知識に依存しており、タスク固有の微調整は、広範囲なドメイン事前学習を一貫して上回っていることがわかった。
推論モデルは、厳密な難読化の下で堅牢性を維持し、異なる命令セットアーキテクチャ(ISA)と最適化レベルにわたって一般化することができる。
コンテキスト内学習は標準モデルにはメリットがあるが、推論モデルには限界がある。
本研究は,タスク固有の微調整と推論駆動型戦略の重要性を強調し,BinDeObbfBenchを二元的難読化の基盤として位置づけた。
関連論文リスト
- Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。
本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文 参考訳(メタデータ) (2026-01-09T02:38:24Z) - Can LLMs Recover Program Semantics? A Systematic Evaluation with Symbolic Execution [1.5377279217726239]
難読化は、プログラムの理解、メンテナンス、テスト、脆弱性検出といったソフトウェアエンジニアリングタスクに永続的な課題をもたらす。
微調整言語モデルがプログラムを効果的に難読化し、分析可能性を取り戻すことができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-24T13:55:20Z) - "Digital Camouflage": The LLVM Challenge in LLM-Based Malware Detection [0.0]
大規模言語モデル(LLM)がマルウェア検出のための有望なツールとして登場した。
しかし、逆コンパイラレベルの難読化の下での信頼性はまだ発見されていない。
本研究は,コンパイラレベルの難読化技術に対する3つの最先端LCMのロバスト性を実証的に評価する。
論文 参考訳(メタデータ) (2025-09-20T12:47:36Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities [0.49157446832511503]
大規模言語モデル (LLM) はソフトウェア工学において有望であるが、バイナリ解析の有効性は未定である。
組立コードの難読化のための商用LCMの総合評価を行った。
論文 参考訳(メタデータ) (2025-05-26T12:16:44Z) - An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。