論文の概要: SALT4Decompile: Inferring Source-level Abstract Logic Tree for LLM-Based Binary Decompilation
- arxiv url: http://arxiv.org/abs/2509.14646v1
- Date: Thu, 18 Sep 2025 05:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.086116
- Title: SALT4Decompile: Inferring Source-level Abstract Logic Tree for LLM-Based Binary Decompilation
- Title(参考訳): SALT4Decompile: LLMベースのバイナリ逆コンパイルのためのソースレベルの抽象論理木を推論する
- Authors: Yongpan Wang, Xin Xu, Xiaojie Zhu, Xiaodong Gu, Beijun Shen,
- Abstract要約: Saltmはバイナリとソースコードの間の安定した論理的特徴を抽象化する新しいバイナリ逆コンパイル法である。
Saltmはソースコードのロジックを回復するのに非常に効果的で、最先端のメソッドよりもはるかに優れている。
- 参考スコア(独自算出の注目度): 17.58664677898224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decompilation is widely used in reverse engineering to recover high-level language code from binary executables. While recent approaches leveraging Large Language Models (LLMs) have shown promising progress, they typically treat assembly code as a linear sequence of instructions, overlooking arbitrary jump patterns and isolated data segments inherent to binary files. This limitation significantly hinders their ability to correctly infer source code semantics from assembly code. To address this limitation, we propose \saltm, a novel binary decompilation method that abstracts stable logical features shared between binary and source code. The core idea of \saltm is to abstract selected binary-level operations, such as specific jumps, into a high-level logic framework that better guides LLMs in semantic recovery. Given a binary function, \saltm constructs a Source-level Abstract Logic Tree (\salt) from assembly code to approximate the logic structure of high-level language. It then fine-tunes an LLM using the reconstructed \salt to generate decompiled code. Finally, the output is refined through error correction and symbol recovery to improve readability and correctness. We compare \saltm to three categories of baselines (general-purpose LLMs, commercial decompilers, and decompilation methods) using three well-known datasets (Decompile-Eval, MBPP, Exebench). Our experimental results demonstrate that \saltm is highly effective in recovering the logic of the source code, significantly outperforming state-of-the-art methods (e.g., 70.4\% TCP rate on Decompile-Eval with a 10.6\% improvement). The results further validate its robustness against four commonly used obfuscation techniques. Additionally, analyses of real-world software and a user study confirm that our decompiled output offers superior assistance to human analysts in comprehending binary functions.
- Abstract(参考訳): 逆エンジニアリングでは、バイナリ実行ファイルから高レベルの言語コードを復元するために、逆コンパイルが広く使われている。
LLM(Large Language Models)を活用する最近のアプローチは、期待できる進歩を示しているが、通常はアセンブリコードを、任意のジャンプパターンやバイナリファイル固有の分離されたデータセグメントを見渡す、命令の線形シーケンスとして扱う。
この制限は、アセンブリコードからソースコードのセマンティクスを正しく推測する能力を著しく妨げます。
この制限に対処するために,バイナリとソースコード間で共有される安定な論理的特徴を抽象化する新しいバイナリ逆コンパイル法である \saltm を提案する。
\saltmの中核となる考え方は、特定のジャンプのような選択されたバイナリレベルの操作を、セマンティックリカバリにおいてLLMをより良くガイドする高レベルのロジックフレームワークに抽象化することである。
バイナリ関数が与えられた場合、 \saltmはアセンブリコードからソースレベルの抽象論理木(\salt)を構築し、高レベルの言語の論理構造を近似する。
その後、再構成された \salt を使用して LLM を微調整し、非コンパイルコードを生成する。
最後に、誤り訂正とシンボル回復によって出力を洗練し、可読性と正確性を向上させる。
本稿では, 3つのよく知られたデータセット(Decompile-Eval, MBPP, Exebench)を用いて, \saltmをベースラインの3つのカテゴリ(汎用LLM, 商用デコンパイラ, 逆コンパイル)と比較する。
実験の結果,<saltm</s> はソースコードの論理を復元する上で非常に有効であり,最先端の手法(例えば,Decompile-Eval の 70.4 % TCP レートを 10.6 % 改善)を著しく上回っていることがわかった。
この結果は、4つの一般的な難読化技術に対するロバスト性をさらに検証した。
さらに、実世界のソフトウェアの分析とユーザスタディにより、我々の非コンパイルされた出力は、バイナリ関数の解釈において、人間のアナリストに優れた支援を提供することを確認した。
関連論文リスト
- D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompilation [12.983487033256448]
Decompile-Benchは、収集された1億の関数ペアから凝縮された200万のバイナリソース関数ペアからなる、最初のオープンソースデータセットである。
評価のために、よく確立されたHumanEvalとMBPPから手作業で作成したバイナリを含むDecompile-Bench-Evalのベンチマークを開発した。
Decompile-Benchによる微調整は、再実行可能性率の観点から、以前のベンチマークよりも20%改善されていることが分かりました。
論文 参考訳(メタデータ) (2025-05-19T03:34:33Z) - An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - Trim My View: An LLM-Based Code Query System for Module Retrieval in Robotic Firmware [7.308605205194037]
本稿では, 2次分解法, 除算法, LLM による関数要約の組み合わせが, 経済的なエンジン構築にどのように役立つかを示す。
我々は,この手法を3つの基盤となるオープンソースLLMを用いてインスタンス化し,ロボットファームウェアのモジュール識別の有効性を測定した。
論文 参考訳(メタデータ) (2025-03-05T23:40:17Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。
LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。
結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文 参考訳(メタデータ) (2024-03-08T13:10:59Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Boosting Neural Networks to Decompile Optimized Binaries [13.255618541522436]
Decompilation は低レベルプログラム言語 (LPL) を機能的に等価な高レベルプログラム言語 (HPL) に変換することを目的としている。
本稿では,コンパイラ最適化バイナリをターゲットとしたNeurDPという新しい学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-03T06:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。