Fugu-MT 論文翻訳(概要): D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning

論文の概要: D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning

arxiv url: http://arxiv.org/abs/2506.10125v1
Date: Wed, 11 Jun 2025 19:09:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.407191
Title: D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning
Title（参考訳）: D-LiFT: コード品質駆動ファインチューニングによるLCMベースのデコンパイラバックエンドの改善
Authors: Muqi Zou, Hongyu Cai, Hongwei Wu, Zion Leonahenahe Basque, Arslan Khan, Berkay Celik, Dave, Tian, Antonio Bianchi, Ruoyu, Wang, Dongyan Xu,
Abstract要約: D-LiFT(D-LiFT)は、LLMを活用して強化学習(RL)によるデコンパイルコードの品質向上を図る自動デコンパイラバックエンドである。 D-LiFTは、コンパイルされたコードの品質を高めるための鍵となる原則に準拠している。 D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。
参考スコア（独自算出の注目度）: 49.16469288280772
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Decompilers, which reconstruct human-readable source code from binary executables, are vital to many security tasks. Yet, despite recent advances, their output often suffers from syntactic and semantic errors and remains difficult to read. Recently, with the advent of large language models (LLMs), researchers began to explore the potential of LLMs to refine decompiler output. Nevertheless, our study of these approaches reveals significant limitations, such as introducing new errors and relying on unreliable accuracy validation. In this paper, we present D-LiFT, an automated decompiler backend that harnesses and further trains LLMs to improve the quality of decompiled code via reinforcement learning (RL). Unlike prior work that overlooks preserving accuracy, D-LiFT adheres to a key principle for enhancing the quality of decompiled code: \textit{preserving accuracy while improving readability}. Central to D-LiFT, we propose D-SCORE, an integrated quality assessment system to score the decompiled code from multiple aspects. In line with our principle, D-SCORE assigns low scores to any inaccurate output and only awards higher scores for readability to code that passes the accuracy check. Specifically, D-SCORE first verifies the syntactic and semantic correctness via the compiler and symbolic execution; only if a candidate is deemed accurate, it then evaluates readability using established metrics to compare the LLM output with the original decompiled code. The score will then be fed back to the LLM for fine-tuning. Our implementation, based on Ghidra and a range of LLMs, demonstrates significant improvements for the accurate decompiled code from the coreutils and util-linux projects. Compared to baseline LLMs without D-SCORE-driven fine-tuning, D-LiFT produces 55.3% more improved decompiled functions, as measured by D-SCORE.
Abstract（参考訳）: バイナリ実行ファイルから可読性のあるソースコードを再構築するデコンパイラは、多くのセキュリティタスクに不可欠である。しかし、最近の進歩にもかかわらず、そのアウトプットはしばしば構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。近年,大規模言語モデル (LLMs) の出現に伴い,研究者らは,逆コンパイラ出力を洗練するためのLLMの可能性を探求し始めた。しかし,本研究は,新しい誤りの導入や信頼できない精度検証への依存など,重大な制約を明らかにしている。本稿では,D-LiFTについて述べる。D-LiFTは自動デコンパイラバックエンドで,LLMを利用して強化学習(RL)によるデコンパイルコードの品質向上を図る。保存精度を見落としている以前の作業とは異なり、D-LiFTはデコンパイルされたコードの品質を高めるための重要な原則に準拠している。 D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。我々の原理に従って、D-SCOREは不正確な出力に低いスコアを割り当て、精度チェックをパスするコードに対して高いスコアを付与するのみである。具体的には、D-SCOREは、まずコンパイラとシンボリック実行による構文的および意味的正当性を検証し、候補が正確であると判断された場合のみ、確立されたメトリクスを使用して可読性を評価し、LLM出力と元の逆コンパイルされたコードと比較する。スコアは、微調整のためにLSMに返される。 Ghidra と LLM をベースとした実装では,コアユーティリティやutil-linux プロジェクトからの正確な逆コンパイルコードに対する大幅な改善が示されている。 D-SCORE駆動の微調整のないベースラインLCMと比較すると、D-SCOREが測定したように、D-LiFTは55.3%改良された逆コンパイル関数を生成する。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文参考訳（メタデータ） (2025-06-12T03:39:25Z)
IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。 IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。 IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.34003516231121]
コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。コード翻訳に特化したLLMであるExeCoderを提案する。
論文参考訳（メタデータ） (2025-01-30T16:18:52Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.4979142807426]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [2.787944528438214]
静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
論文参考訳（メタデータ） (2024-11-05T13:24:56Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では、微調整されたオープンソースモデルを用いて、追加データを生成して命令調整データセットを拡張できるかどうかを考察する。 Inverse-Instructは、微調整 LLM を用いて、独自のトレーニングデータセットからコード応答の追加命令を生成するデータ拡張手法である。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文参考訳（メタデータ） (2024-06-21T17:37:10Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。 LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文参考訳（メタデータ） (2024-03-08T13:10:59Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。