Fugu-MT 論文翻訳(概要): D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning

論文の概要: D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning

arxiv url: http://arxiv.org/abs/2506.10125v2
Date: Fri, 15 Aug 2025 18:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:10.066003
Title: D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning
Title（参考訳）: D-LiFT: コード品質駆動ファインチューニングによるLCMベースのデコンパイラバックエンドの改善
Authors: Muqi Zou, Hongyu Cai, Hongwei Wu, Zion Leonahenahe Basque, Arslan Khan, Berkay Celik, Dave, Tian, Antonio Bianchi, Ruoyu, Wang, Dongyan Xu,
Abstract要約: 逆コンパイラは、バイナリから可読なソースコードを再構築する。近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。 D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
参考スコア（独自算出の注目度）: 49.16469288280772
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As one of the key tools in many security tasks, decompilers reconstruct human-readable source code from binaries. Yet, despite recent advances, their outputs often suffer from syntactic and semantic errors and remain difficult to read. Recently, with the advent of large language models (LLMs), researchers began to explore the potential of LLMs to refine decompiler output. Nevertheless, our study of these approaches reveals their problems, such as introducing new errors and relying on unreliable accuracy validation. In this paper, we present D-LIFT, an enhanced decompiler-LLM pipeline with a fine-tuned LLM using code quality-aware reinforcement learning. Unlike prior work that overlooks preserving accuracy, D-LIFT adheres to a key principle for enhancing the quality of decompiled code: preserving accuracy while improving readability. Central to D-LIFT, we propose D-Score, an integrated code quality assessment system to score the decompiled source code from multiple aspects, and use it to guide reinforcement learning fine-tuning and to select the best output during inference. In line with our principle, D-Score assigns low scores to any inaccurate output and only awards higher scores for readability to code that passes the accuracy check. Our implementation, based on Ghidra and a range of LLMs, demonstrates significant improvements for the accurate decompiled code from the coreutils and util-linux projects. Compared to baseline LLMs without D-Score-driven fine-tuning, our trained LLMs produce 55.3% more improved decompiled functions, as measured by D-Score. Overall, D-LIFT improves the quality of 68.2% of all the functions produced by the native decompiler.
Abstract（参考訳）: 多くのセキュリティタスクにおいて重要なツールの1つとして、デコンパイラはバイナリから可読性のあるソースコードを再構築する。しかし、最近の進歩にもかかわらず、そのアウトプットはしばしば構文的・意味的な誤りに悩まされ、読みにくいままである。近年,大規模言語モデル (LLMs) の出現に伴い,研究者らは,逆コンパイラ出力を洗練するためのLLMの可能性を探求し始めた。しかしながら,本研究は,新しい誤りの導入や信頼できない精度検証など,それらの問題点を明らかにしている。本稿では,D-LIFTを提案する。D-LIFTは,コード品質を意識した強化学習を用いた微調整LLMを用いた拡張逆コンパイラ・LLMパイプラインである。保存の正確さを見落としている以前の作業とは異なり、D-LIFTはコンパイルされたコードの品質を高めるための重要な原則に準拠している。 D-LIFTの中心となるD-Scoreは、複数の側面から逆コンパイルされたソースコードをスコアする統合コード品質評価システムであり、これを強化学習の微調整のガイドや推論時の最良の出力の選択に利用する。我々の原理に従って、D-Scoreは低いスコアを任意の不正確な出力に割り当て、精度チェックをパスするコードに対する可読性に対してのみ高いスコアを付与する。 Ghidra と LLM をベースとした実装では,コアユーティリティやutil-linux プロジェクトからの正確な逆コンパイルコードに対する大幅な改善が示されている。 D-Score駆動による微調整を伴わないベースラインLLMと比較して、トレーニングされたLLMは、D-Scoreで測定されるように、55.3%改善された逆コンパイル関数を生成する。全体として、D-LIFTはネイティブデコンパイラによって生成される全ての関数の68.2%の品質を改善している。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文参考訳（メタデータ） (2025-06-12T03:39:25Z)
IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。 IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。 IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.34003516231121]
コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。コード翻訳に特化したLLMであるExeCoderを提案する。
論文参考訳（メタデータ） (2025-01-30T16:18:52Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.4979142807426]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [2.787944528438214]
静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
論文参考訳（メタデータ） (2024-11-05T13:24:56Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では、微調整されたオープンソースモデルを用いて、追加データを生成して命令調整データセットを拡張できるかどうかを考察する。 Inverse-Instructは、微調整 LLM を用いて、独自のトレーニングデータセットからコード応答の追加命令を生成するデータ拡張手法である。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文参考訳（メタデータ） (2024-06-21T17:37:10Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。 LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文参考訳（メタデータ） (2024-03-08T13:10:59Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。