論文の概要: D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning
- arxiv url: http://arxiv.org/abs/2506.10125v1
- Date: Wed, 11 Jun 2025 19:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.407191
- Title: D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning
- Title(参考訳): D-LiFT: コード品質駆動ファインチューニングによるLCMベースのデコンパイラバックエンドの改善
- Authors: Muqi Zou, Hongyu Cai, Hongwei Wu, Zion Leonahenahe Basque, Arslan Khan, Berkay Celik, Dave, Tian, Antonio Bianchi, Ruoyu, Wang, Dongyan Xu,
- Abstract要約: D-LiFT(D-LiFT)は、LLMを活用して強化学習(RL)によるデコンパイルコードの品質向上を図る自動デコンパイラバックエンドである。
D-LiFTは、コンパイルされたコードの品質を高めるための鍵となる原則に準拠している。
D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。
- 参考スコア(独自算出の注目度): 49.16469288280772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decompilers, which reconstruct human-readable source code from binary executables, are vital to many security tasks. Yet, despite recent advances, their output often suffers from syntactic and semantic errors and remains difficult to read. Recently, with the advent of large language models (LLMs), researchers began to explore the potential of LLMs to refine decompiler output. Nevertheless, our study of these approaches reveals significant limitations, such as introducing new errors and relying on unreliable accuracy validation. In this paper, we present D-LiFT, an automated decompiler backend that harnesses and further trains LLMs to improve the quality of decompiled code via reinforcement learning (RL). Unlike prior work that overlooks preserving accuracy, D-LiFT adheres to a key principle for enhancing the quality of decompiled code: \textit{preserving accuracy while improving readability}. Central to D-LiFT, we propose D-SCORE, an integrated quality assessment system to score the decompiled code from multiple aspects. In line with our principle, D-SCORE assigns low scores to any inaccurate output and only awards higher scores for readability to code that passes the accuracy check. Specifically, D-SCORE first verifies the syntactic and semantic correctness via the compiler and symbolic execution; only if a candidate is deemed accurate, it then evaluates readability using established metrics to compare the LLM output with the original decompiled code. The score will then be fed back to the LLM for fine-tuning. Our implementation, based on Ghidra and a range of LLMs, demonstrates significant improvements for the accurate decompiled code from the coreutils and util-linux projects. Compared to baseline LLMs without D-SCORE-driven fine-tuning, D-LiFT produces 55.3% more improved decompiled functions, as measured by D-SCORE.
- Abstract(参考訳): バイナリ実行ファイルから可読性のあるソースコードを再構築するデコンパイラは、多くのセキュリティタスクに不可欠である。
しかし、最近の進歩にもかかわらず、そのアウトプットはしばしば構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
近年,大規模言語モデル (LLMs) の出現に伴い,研究者らは,逆コンパイラ出力を洗練するためのLLMの可能性を探求し始めた。
しかし,本研究は,新しい誤りの導入や信頼できない精度検証への依存など,重大な制約を明らかにしている。
本稿では,D-LiFTについて述べる。D-LiFTは自動デコンパイラバックエンドで,LLMを利用して強化学習(RL)によるデコンパイルコードの品質向上を図る。
保存精度を見落としている以前の作業とは異なり、D-LiFTはデコンパイルされたコードの品質を高めるための重要な原則に準拠している。
D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。
我々の原理に従って、D-SCOREは不正確な出力に低いスコアを割り当て、精度チェックをパスするコードに対して高いスコアを付与するのみである。
具体的には、D-SCOREは、まずコンパイラとシンボリック実行による構文的および意味的正当性を検証し、候補が正確であると判断された場合のみ、確立されたメトリクスを使用して可読性を評価し、LLM出力と元の逆コンパイルされたコードと比較する。
スコアは、微調整のためにLSMに返される。
Ghidra と LLM をベースとした実装では,コアユーティリティやutil-linux プロジェクトからの正確な逆コンパイルコードに対する大幅な改善が示されている。
D-SCORE駆動の微調整のないベースラインLCMと比較すると、D-SCOREが測定したように、D-LiFTは55.3%改良された逆コンパイル関数を生成する。
関連論文リスト
- DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.4979142807426]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [2.787944528438214]
静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。
しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。
本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:24:56Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では、微調整されたオープンソースモデルを用いて、追加データを生成して命令調整データセットを拡張できるかどうかを考察する。
Inverse-Instructは、微調整 LLM を用いて、独自のトレーニングデータセットからコード応答の追加命令を生成するデータ拡張手法である。
論文 参考訳(メタデータ) (2024-07-08T08:00:05Z) - LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。
LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。
結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文 参考訳(メタデータ) (2024-03-08T13:10:59Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。