論文の概要: Augmenting Smart Contract Decompiler Output through Fine-grained Dependency Analysis and LLM-facilitated Semantic Recovery
- arxiv url: http://arxiv.org/abs/2501.08670v1
- Date: Wed, 15 Jan 2025 09:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:08.139461
- Title: Augmenting Smart Contract Decompiler Output through Fine-grained Dependency Analysis and LLM-facilitated Semantic Recovery
- Title(参考訳): 細粒度依存解析とLLM対応セマンティックリカバリによるスマートコントラクトデコンパイラ出力の増大
- Authors: Zeqin Liao, Yuhong Nan, Zixu Gao, Henglong Liang, Sicheng Hao, Peifan Reng, Zibin Zheng,
- Abstract要約: SmartHaloは、静的解析(SA)と大規模言語モデル(LLM)を組み合わせることで、デコンパイラ出力を強化する新しいフレームワークである。
SmartHaloは、SOTAデコンパイラ(例えばGigahorse)と比較して、デコンパイルされたコードの品質を大幅に改善する。
- 参考スコア(独自算出の注目度): 21.246677541267047
- License:
- Abstract: Decompiler is a specialized type of reverse engineering tool extensively employed in program analysis tasks, particularly in program comprehension and vulnerability detection. However, current Solidity smart contract decompilers face significant limitations in reconstructing the original source code. In particular, the bottleneck of SOTA decompilers lies in inaccurate method identification, incorrect variable type recovery, and missing contract attributes. These deficiencies hinder downstream tasks and understanding of the program logic. To address these challenges, we propose SmartHalo, a new framework that enhances decompiler output by combining static analysis (SA) and large language models (LLM). SmartHalo leverages the complementary strengths of SA's accuracy in control and data flow analysis and LLM's capability in semantic prediction. More specifically, \system{} constructs a new data structure - Dependency Graph (DG), to extract semantic dependencies via static analysis. Then, it takes DG to create prompts for LLM optimization. Finally, the correctness of LLM outputs is validated through symbolic execution and formal verification. Evaluation on a dataset consisting of 465 randomly selected smart contract methods shows that SmartHalo significantly improves the quality of the decompiled code, compared to SOTA decompilers (e.g., Gigahorse). Notably, integrating GPT-4o with SmartHalo further enhances its performance, achieving precision rates of 87.39% for method boundaries, 90.39% for variable types, and 80.65% for contract attributes.
- Abstract(参考訳): Decompiler(デコンパイラ)は、プログラム解析タスク、特にプログラムの理解と脆弱性検出に広く使われている特殊なリバースエンジニアリングツールである。
しかし、現在のSolidityスマートコントラクトデコンパイラは、オリジナルのソースコードを再構築する際の重大な制限に直面している。
特に、SOTAデコンパイラのボトルネックは、不正確なメソッドの識別、不正な変数の型回復、契約属性の欠如にある。
これらの欠陥は、下流のタスクとプログラムロジックの理解を妨げる。
これらの課題に対処するために,静的解析(SA)と大規模言語モデル(LLM)を組み合わせることで,デコンパイラ出力を向上させる新しいフレームワークであるSmartHaloを提案する。
SmartHaloは、制御とデータフロー分析におけるSAの精度とセマンティック予測におけるLLMの能力の相補的な長所を活用している。
具体的には、\system{}は新しいデータ構造である依存性グラフ(DG)を構築し、静的解析を通じてセマンティックな依存関係を抽出する。
そして、LCM最適化のためのプロンプトを生成するのにDGが必要です。
最後に、LLM出力の正しさをシンボル実行と形式検証によって検証する。
ランダムに選択された465個のスマートコントラクトメソッドからなるデータセットの評価では、SmartHaloは、SOTAデコンパイラ(例えば、Gigahorse)と比較して、デコンパイルされたコードの品質を大幅に改善している。
特に、GPT-4oとSmartHaloの統合によりパフォーマンスが向上し、メソッド境界が87.39%、変数型が90.39%、契約属性が80.65%となる。
関連論文リスト
- ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [0.0]
大規模言語モデル(LLM)は、コード理解やコード生成など、コード関連のタスクにおいて顕著な機能を示している。
しかしながら、LLMが汎用的なサロゲートコードエグゼキュータとして機能するかどうかについても、同様に重要で未解明の疑問がある。
本研究は,LLMを代用コード実行子として使用することの実現可能性に関する実証的な知見を提供する。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [3.0538467265507574]
アプリケーションセキュリティテスト(SAST)ツールは、早期のバグ検出とコード品質には不可欠だが、しばしば開発を遅くする偽陽性を生成する。
自然言語とコードの理解に長けている大規模言語モデルは、SASTツールの正確性とユーザビリティを改善するための有望な方法を提供する。
我々の研究は、正確なコードコンテキストと完全なコードコンテキストの重大な影響を強調し、プログラム分析とLLMを組み合わせる可能性を強調します。
論文 参考訳(メタデータ) (2024-11-05T13:24:56Z) - REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-10-10T18:06:29Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。