論文の概要: Can LLMs Recover Program Semantics? A Systematic Evaluation with Symbolic Execution
- arxiv url: http://arxiv.org/abs/2511.19130v1
- Date: Mon, 24 Nov 2025 13:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.236787
- Title: Can LLMs Recover Program Semantics? A Systematic Evaluation with Symbolic Execution
- Title(参考訳): LLMはプログラムセマンティックスを回復できるか?シンボリック実行によるシステム評価
- Authors: Rong Feng, Suman Saha,
- Abstract要約: 難読化は、プログラムの理解、メンテナンス、テスト、脆弱性検出といったソフトウェアエンジニアリングタスクに永続的な課題をもたらす。
微調整言語モデルがプログラムを効果的に難読化し、分析可能性を取り戻すことができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 1.5377279217726239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obfuscation poses a persistent challenge for software engineering tasks such as program comprehension, maintenance, testing, and vulnerability detection. While compiler optimizations and third-party code often introduce transformations that obscure program intent, existing analysis tools and large language models (LLMs) struggle to recover the original semantics. In this work, we investigate whether LLMs, when fine-tuned with symbolic execution artifacts, can effectively deobfuscate programs and restore analyzability. We construct a benchmark by applying four widely studied transformations-control-flow flattening, opaque predicates, arithmetic encoding, and branch encoding-across diverse C programs from TUM Obfuscation Benchmarks, the LLVM test suite, and algorithmic repositories. We then compare three state-of-the-art LLMs under two training configurations: baseline fine-tuning on obfuscated/original code pairs, and enhanced fine-tuning with additional KLEE artifacts such as SMT constraints, path statistics, and test cases. Our evaluation examines syntactic correctness (compilation success), semantic fidelity (behavioral equivalence under symbolic execution), and code quality (readability and structure). Results show that GPT-4.1-mini achieves the strongest deobfuscation overall, and that incorporating KLEE artifacts consistently improves semantic preservation and compilation success across models. These findings highlight deobfuscation as a broader software engineering concern, demonstrating that combining LLMs with symbolic execution can strengthen automated testing, static analysis, and program comprehension in the presence of obfuscation.
- Abstract(参考訳): 難読化は、プログラムの理解、メンテナンス、テスト、脆弱性検出といったソフトウェアエンジニアリングタスクに永続的な課題をもたらす。
コンパイラの最適化やサードパーティのコードは、プログラム意図を曖昧にするような変換を導入することが多いが、既存の分析ツールと大規模言語モデル(LLM)は、元のセマンティクスを回復するのに苦労している。
本研究では,LLMがプログラムを効果的に難読化し,解析可能性を取り戻すことができるかどうかを考察する。
我々は、TUM Obfuscation Benchmarks、LLVMテストスイート、アルゴリズムリポジトリから、広く研究されている4つの変換-制御-フロー平坦化、不透明な述語、算術符号化、分岐符号化-多種多様なCプログラムを適用してベンチマークを構築する。
次に、難読化/オリジナルコードペアのベースライン微調整と、SMT制約、パス統計、テストケースなどのKLEEアーティファクトの追加による微調整の2つのトレーニング構成に基づいて、最先端のLLMを比較した。
本評価では,構文的正しさ(コンパイル成功),意味的忠実さ(シンボル実行時の行動等価性),コード品質(可読性と構造)について検討した。
その結果, GPT-4.1-miniは全体として最も難読化され, KLEEアーティファクトを組み込むことで, モデル間のセマンティックな保存とコンパイルの成功が一貫して向上することがわかった。
これらの知見は、難読化をより広範なソフトウェアエンジニアリングの関心事として強調し、LLMとシンボル実行を組み合わせることで、難読化の存在下での自動テスト、静的解析、プログラム理解が強化されることを示した。
関連論文リスト
- Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。
大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。
In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:21:39Z) - On Code-Induced Reasoning in LLMs [21.875805779552564]
並列命令データセットを10のプログラミング言語で構築する。
コードの構造的・意味的特性を選択的に破壊する制御摂動を適用する。
以上の結果から,LLMは意味論的よりも構造的摂動に弱いことが示唆された。
論文 参考訳(メタデータ) (2025-09-25T19:57:36Z) - "Digital Camouflage": The LLVM Challenge in LLM-Based Malware Detection [0.0]
大規模言語モデル(LLM)がマルウェア検出のための有望なツールとして登場した。
しかし、逆コンパイラレベルの難読化の下での信頼性はまだ発見されていない。
本研究は,コンパイラレベルの難読化技術に対する3つの最先端LCMのロバスト性を実証的に評価する。
論文 参考訳(メタデータ) (2025-09-20T12:47:36Z) - Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities [0.49157446832511503]
大規模言語モデル (LLM) はソフトウェア工学において有望であるが、バイナリ解析の有効性は未定である。
組立コードの難読化のための商用LCMの総合評価を行った。
論文 参考訳(メタデータ) (2025-05-26T12:16:44Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。