論文の概要: HELIOS: Hierarchical Graph Abstraction for Structure-Aware LLM Decompilation
- arxiv url: http://arxiv.org/abs/2601.14598v1
- Date: Wed, 21 Jan 2026 02:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.212637
- Title: HELIOS: Hierarchical Graph Abstraction for Structure-Aware LLM Decompilation
- Title(参考訳): HELIOS:構造を考慮したLLM逆コンパイルのための階層グラフ抽象化
- Authors: Yonatan Gizachew Achamyeleh, Harsh Thomare, Mohammad Abdullah Al Faruque,
- Abstract要約: textscHELIOSは、バイナリの逆コンパイルを構造化推論タスクとして再構成するフレームワークである。
textscHELIOSは、セキュリティ設定のリバースエンジニアリングのための実用的なビルディングブロックである。
- 参考スコア(独自算出の注目度): 11.110675371854988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently been applied to binary decompilation, yet they still treat code as plain text and ignore the graphs that govern program control flow. This limitation often yields syntactically fragile and logically inconsistent output, especially for optimized binaries. This paper presents \textsc{HELIOS}, a framework that reframes LLM-based decompilation as a structured reasoning task. \textsc{HELIOS} summarizes a binary's control flow and function calls into a hierarchical text representation that spells out basic blocks, their successors, and high-level patterns such as loops and conditionals. This representation is supplied to a general-purpose LLM, along with raw decompiler output, optionally combined with a compiler-in-the-loop that returns error messages when the generated code fails to build. On HumanEval-Decompile for \texttt{x86\_64}, \textsc{HELIOS} raises average object file compilability from 45.0\% to 85.2\% for Gemini~2.0 and from 71.4\% to 89.6\% for GPT-4.1~Mini. With compiler feedback, compilability exceeds 94\% and functional correctness improves by up to 5.6 percentage points over text-only prompting. Across six architectures drawn from x86, ARM, and MIPS, \textsc{HELIOS} reduces the spread in functional correctness while keeping syntactic correctness consistently high, all without fine-tuning. These properties make \textsc{HELIOS} a practical building block for reverse engineering workflows in security settings where analysts need recompilable, semantically faithful code across diverse hardware targets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近バイナリの逆コンパイルに応用されているが、コードはまだプレーンテキストとして扱い、プログラム制御フローを管理するグラフを無視している。
この制限は、特に最適化されたバイナリに対して、構文的に脆弱で論理的に一貫性のない出力をもたらすことが多い。
本稿では, LLM ベースの逆コンパイルを構造化推論タスクとして再構成するフレームワークである \textsc{HELIOS} について述べる。
\textsc{HELIOS} はバイナリの制御フローを要約し、関数は基本ブロックとその後継、ループや条件のような高レベルのパターンをスペルする階層的なテキスト表現に呼び出します。
この表現は汎用LLMに提供され、生の逆コンパイラ出力とともにオプションでコンパイラ・イン・ザ・ループと組み合わせられ、生成されたコードがビルドに失敗するとエラーメッセージを返す。
HumanEval-Decompile for \texttt{x86\_64} では、 \textsc{HELIOS} は平均オブジェクトファイルのコンパイル可能性を 45.0\% から 85.2\% に、Gemini~2.0 は 71.4\% から 89.6\% に引き上げる。
コンパイラのフィードバックにより、コンパイル可能性は94\%を超え、テキストのみのプロンプトよりも最大5.6ポイント向上する。
x86、ARM、MIPSから引き出された6つのアーキテクチャのうち、 \textsc{HELIOS} は機能的正しさの拡散を減らし、構文的正しさを常に高く保ち、すべてが微調整なしで済む。
これらのプロパティは、さまざまなハードウェアターゲットに対して、アナリストが再コンパイル可能でセマンティックに忠実なコードを必要とするセキュリティ設定において、‘textsc{HELIOS} をリバースエンジニアリングワークフローのための実用的なビルディングブロックにする。
関連論文リスト
- Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。
大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。
In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:21:39Z) - SALT4Decompile: Inferring Source-level Abstract Logic Tree for LLM-Based Binary Decompilation [17.58664677898224]
Saltmはバイナリとソースコードの間の安定した論理的特徴を抽象化する新しいバイナリ逆コンパイル法である。
Saltmはソースコードのロジックを回復するのに非常に効果的で、最先端のメソッドよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-09-18T05:57:15Z) - WGRAMMAR: Leverage Prior Knowledge to Accelerate Structured Decoding [58.1177179119881]
我々は、ドメイン認識の単純化、制約分解、マスクキャッシングを統合した軽量デコードエンジンであるwgrammarを紹介する。
wgrammarは、既存のシステムよりも最大250倍のスピードアップを実現します。
論文 参考訳(メタデータ) (2025-07-22T17:13:47Z) - D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - LLMigrate: Transforming "Lazy" Large Language Models into Efficient Source Code Migrators [21.114491141763647]
RustでCコードを書き直すことでメモリの安全性が向上するが、32万行のLinuxカーネルのような大規模なマイグレーションは依然として困難である。
最近のLarge Language Model (LLM)アプローチは、より慣用的で安全なRustプログラムを生成するが、しばしば"遅延"を示す。
LLMベースのC-to-Rust翻訳ツールはモジュールを個別の関数に分割し、個別に翻訳し、再統合する。
論文 参考訳(メタデータ) (2025-03-31T07:09:07Z) - ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning [33.53059396922164]
アセンブリコード分析と理解は、リバースエンジニアリングのようなアプリケーションにおいて重要な役割を果たす。
従来のマスク付き言語モデリングアプローチは、自然言語の相互作用に明示的に焦点を合わせていない。
本稿では、エンドツーエンドな構造意味的命令チューニングフレームワークであるアセンブリ・チューニングについて述べる。
論文 参考訳(メタデータ) (2025-03-14T17:36:08Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。
LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。
結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文 参考訳(メタデータ) (2024-03-08T13:10:59Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。