論文の概要: PCodeTrans: Translate Decompiled Pseudocode to Compilable and Executable Equivalent
- arxiv url: http://arxiv.org/abs/2603.14855v1
- Date: Mon, 16 Mar 2026 05:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.079198
- Title: PCodeTrans: Translate Decompiled Pseudocode to Compilable and Executable Equivalent
- Title(参考訳): PCodeTrans:decompiled Pseudocodeをコンパイル可能で実行可能な等価に翻訳する
- Authors: Yuxin Cui, Zeyu Gao, Shuxian He, Siliang Qin, Chao Zhang,
- Abstract要約: PCodeTransは、逆コンパイル、再コンパイル、厳密な関数レベルの動的検証のギャップを埋める。
99.55%と99.89%のテスト検証された動作一貫性とともに、ストリップされていないバイナリ上で100%の関数レベルのコンパイルが可能となる。
- 参考スコア(独自算出の注目度): 8.576619291429969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decompilation is foundational to binary analysis, yet conventional tools prioritize human readability over strict recompilability and verifiable runtime correctness. While recent LLM-based approaches attempt to refine decompiled pseudocode, they typically either optimize solely for readability or rely on static analysis for evaluation. This makes them prone to "semantic hallucinations" that compromise accuracy and fail to resolve actual runtime failures. For critical tasks like software modernization and vulnerability remediation, recovered code must not only compile but replicate the original binary's behavior. We present PCodeTrans, a feedback-driven framework that bridges the gap between decompilation, recompilation, and rigorous function-level dynamic validation. After extracting a minimal yet coherent context to guarantee recompilability, PCodeTrans employs an in situ substitutable engine to hot-swap the compiled function directly into the unmodified binary, natively preserving its authentic execution context and global dependencies. Guided by fine-grained differential tracing, PCodeTrans generates precise runtime feedback to iteratively guide an LLM in repairing semantic discrepancies. Evaluated on Coreutils and Binutils, PCodeTrans achieves unprecedented recovery performance when rectifying raw Hex-Rays outputs, attaining 100% function-level compilability on unstripped binaries alongside 99.55% and 99.89% test-validated behavioral consistency, respectively. In doing so, it resolves 76.56% and 79.74% of logic errors exposed by official test suites. Exhibiting exceptional resilience, PCodeTrans maintains over 96% behavioral consistency even on fully stripped binaries. By significantly outperforming all existing baselines, PCodeTrans paves a practical path to reliably translate decompiled pseudocode into compilable and executable equivalents.
- Abstract(参考訳): 逆コンパイルはバイナリ解析の基礎となるが、従来のツールは厳密な再コンパイル性と検証可能なランタイムの正しさよりも人間の可読性を優先する。
最近のLLMベースのアプローチでは、デコンパイルされた擬似コードを洗練しようとするが、通常は可読性だけに最適化するか、評価に静的解析に依存する。
これにより、正確さを損ね、実際の実行時の障害を解決するのに失敗する“セマンティック幻覚(semantic hallucination)”が発生する。
ソフトウェアモダナイゼーションや脆弱性修正といった重要なタスクでは、リカバリされたコードはコンパイルするだけでなく、元のバイナリの振る舞いを複製する必要がある。
本稿では,逆コンパイル,再コンパイル,厳密な関数レベルの動的検証のギャップを埋めるフィードバック駆動型フレームワークであるPCodeTransを提案する。
再コンパイル性を保証するために最小限のコヒーレントなコンテキストを抽出した後、PCodeTransはin situ置換可能なエンジンを使用して、コンパイルされた関数を直接未修正のバイナリにホットスワップし、その真の実行コンテキストとグローバル依存関係をネイティブに保存する。
PCodeTransは細粒度の差分トレースによってガイドされ、正確なランタイムフィードバックを生成して、意味的不一致の修復においてLLMを反復的にガイドする。
CoreutilsとBinutilsで評価され、PCodeTransは生のHex-Rays出力の修正時に前例のない回復性能を達成し、それぞれ99.55%と99.89%のテスト検証された動作一貫性とともに、ストリップされていないバイナリ上で100%の関数レベルのコンパイルが可能になった。
76.56%と79.74%のロジックエラーを公式のテストスイートによって解決する。
例外的なレジリエンスを排除したPCodeTransは、完全に削除されたバイナリでも、96%以上の動作一貫性を維持している。
PCodeTransは、既存のすべてのベースラインを大幅に上回ることによって、コンパイル可能で実行可能な等価コードに確実にコンパイルされた擬似コードを変換する実用的なパスを舗装する。
関連論文リスト
- Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。
大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。
In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:21:39Z) - Lares: LLM-driven Code Slice Semantic Search for Patch Presence Testing [17.526200201537343]
現代のソフトウェアエコシステムでは、1日の脆弱性はコードの大規模な再利用によって重大なセキュリティリスクを引き起こす。
しかし、既存の方法は、使用性と精度の制限に悩まされている。
パッチ存在テストのためのスケーラブルで正確な方法であるLalesを提案する。
論文 参考訳(メタデータ) (2025-11-03T05:46:29Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompilation [18.28488002922524]
Decompile-Benchは、収集された1億の関数ペアから凝縮された200万のバイナリソース関数ペアからなる、最初のオープンソースデータセットである。
評価のために、よく確立されたHumanEvalとMBPPから手作業で作成したバイナリを含むDecompile-Bench-Evalのベンチマークを開発した。
Decompile-Benchによる微調整は、再実行可能性率の観点から、以前のベンチマークよりも20%改善されていることが分かりました。
論文 参考訳(メタデータ) (2025-05-19T03:34:33Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。