論文の概要: FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.19615v1
- Date: Wed, 22 Oct 2025 14:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.916405
- Title: FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation
- Title(参考訳): FidelityGPT:Retrieval Augmented Generationによる逆コンパイル歪みの修正
- Authors: Zhiping Zhou, Xiaohong Li, Ruitao Feng, Yao Zhang, Yuekang Li, Wenbu Feng, Yunqian Wang, Yuqing Li,
- Abstract要約: 逆コンパイルはマシンコードを可読形式に変換し、ソースコードなしで解析とデバッグを可能にする。
変数のリネームや構造的単純化といった既存の手法は部分的な改善を提供するが、堅牢な検出と修正は欠如している。
本稿では,意味的歪みを系統的に検出し,修正することにより,デコンパイルされたコード精度と可読性を向上するフレームワークであるFidelityGPTを提案する。
- 参考スコア(独自算出の注目度): 23.291593625603653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decompilation converts machine code into human-readable form, enabling analysis and debugging without source code. However, fidelity issues often degrade the readability and semantic accuracy of decompiled output. Existing methods, such as variable renaming or structural simplification, provide partial improvements but lack robust detection and correction, particularly for complex closed-source binaries. We present FidelityGPT, a framework that enhances decompiled code accuracy and readability by systematically detecting and correcting semantic distortions. FidelityGPT introduces distortion-aware prompt templates tailored to closed-source settings and integrates Retrieval-Augmented Generation (RAG) with a dynamic semantic intensity algorithm to locate distorted lines and retrieve semantically similar code from a database. A variable dependency algorithm further mitigates long-context limitations by analyzing redundant variables and integrating their dependencies into the prompt context. Evaluated on 620 function pairs from a binary similarity benchmark, FidelityGPT achieved an average detection accuracy of 89% and a precision of 83%. Compared to the state-of-the-art DeGPT (Fix Rate 83%, Corrected Fix Rate 37%), FidelityGPT attained 94% FR and 64% CFR, demonstrating significant gains in accuracy and readability. These results highlight its potential to advance LLM-based decompilation and reverse engineering.
- Abstract(参考訳): 逆コンパイルはマシンコードを可読形式に変換し、ソースコードなしで解析とデバッグを可能にする。
しかし、不確実性問題は、しばしば非コンパイルされた出力の可読性と意味的精度を低下させる。
変数のリネームや構造的単純化といった既存の手法は部分的な改善を提供するが、特に複雑なクローズドソースバイナリでは、堅牢な検出と修正が欠如している。
本稿では,意味的歪みを系統的に検出し,修正することにより,デコンパイルされたコード精度と可読性を向上するフレームワークであるFidelityGPTを提案する。
FidelityGPTは、クローズドソース設定に適した歪み対応プロンプトテンプレートを導入し、動的セマンティックインテンシティーアルゴリズムとRetrieval-Augmented Generation(RAG)を統合して、歪んだ行を検出し、データベースから意味的に類似したコードを取得する。
変数依存アルゴリズムは、冗長な変数を分析し、依存関係をプロンプトコンテキストに統合することで、長いコンテキスト制限を緩和する。
2値類似度ベンチマークから620個の関数対を評価すると、FidelityGPTは平均検出精度89%、精度83%を達成した。
現状のDeGPT (63%, 修正固定率37%)と比較すると, フィデリティGPTは94% FR, 64% CFRに達し, 精度と可読性は著しく向上した。
これらの結果は、LCMベースの逆コンパイルとリバースエンジニアリングの進歩の可能性を強調している。
関連論文リスト
- Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Optimization Modeling via Semantic Anchored Alignment [30.047608671041104]
SAC-Optは,問題セマンティクスにおいて,解答フィードバックではなく最適化モデルに基づく後方誘導補正フレームワークである。
各ステップで、SAC-Optは元のセマンティックアンカーと生成されたコードから再構成されたアンカーを調整し、ミスマッチしたコンポーネントのみを選択的に修正する。
7つの公開データセットに関する実証的な結果は、SAC-Optが平均モデリング精度を7.8%改善し、ComplexLPデータセットで最大21.9%向上したことを示している。
論文 参考訳(メタデータ) (2025-09-28T12:25:31Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - Detecting the Root Cause Code Lines in Bug-Fixing Commits by Heterogeneous Graph Learning [1.5213722322518697]
自動欠陥予測ツールは、ソフトウェアプロジェクト内の欠陥に起因するソフトウェア変更を積極的に識別することができる。
異質で複雑なソフトウェアプロジェクトにおける既存の作業は、異質なコミット構造に苦労したり、コード変更におけるクロスライン依存関係を無視したりといった課題に直面し続けている。
本稿では,バグフィックスグラフ構築コンポーネント,コードセマンティックアグリゲーションコンポーネント,クロスラインセマンティック保持コンポーネントの3つの主要コンポーネントからなるRC_Detectorというアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-02T05:39:50Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。