Fugu-MT 論文翻訳(概要): Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement

論文の概要: Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement

arxiv url: http://arxiv.org/abs/2406.17233v1
Date: Tue, 25 Jun 2024 02:37:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 16:01:10.840442
Title: Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement
Title（参考訳）: 有限粒度アライメント強化による自己構築型コンテキストデコンパイル
Authors: Yunlong Feng, Yang Xu, Dechuan Teng, Honglin Mu, Xiao Xu, Libo Qin, Wanxiang Che, Qingfu Zhu,
Abstract要約: 逆コンパイルは、ソースコードが利用できない場合、コンパイルされたコードをハイレベルなプログラミング言語に変換する。本稿では,デコンパイル性能を向上させる2つの手法を提案する。我々は,Decompile-Evalベンチマークで約7.35%の再現性向上を実現し,55.03%の最先端性能を新たに確立した。
参考スコア（独自算出の注目度）: 43.26373674836259
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decompilation transforms compiled code back into a high-level programming language for analysis when source code is unavailable. Previous work has primarily focused on enhancing decompilation performance by increasing the scale of model parameters or training data for pre-training. Based on the characteristics of the decompilation task, we propose two methods: (1) Without fine-tuning, the Self-Constructed Context Decompilation (sc$^2$dec) method recompiles the LLM's decompilation results to construct pairs for in-context learning, helping the model improve decompilation performance. (2) Fine-grained Alignment Enhancement (FAE), which meticulously aligns assembly code with source code at the statement level by leveraging debugging information, is employed during the fine-tuning phase to achieve further improvements in decompilation. By integrating these two methods, we achieved a Re-Executability performance improvement of approximately 7.35\% on the Decompile-Eval benchmark, establishing a new state-of-the-art performance of 55.03\%.
Abstract（参考訳）: 逆コンパイルはコンパイル済みのコードを高レベルなプログラミング言語に変換し、ソースコードが利用できない時に解析する。これまでの研究は主に、モデルパラメータのスケールや事前トレーニングのためのトレーニングデータを増やすことで、デコンパイル性能の向上に重点を置いてきた。 1)微調整なしでは、自己構築されたコンテキストデコンパイル(sc$^2$dec)メソッドがLLMのデコンパイル結果を再コンパイルし、文脈内学習のためのペアを構築することにより、モデルがデコンパイル性能を向上させる。 2)デバッギング情報を活用することで,アセンブリコードとソースコードを文レベルで慎重に整列する微粒化アライメント向上(FAE)を微粒化段階に導入し,デバッギングのさらなる改善を実現する。これらの2つの手法を統合することにより、Decompile-Evalベンチマークで約7.35\%の再実行可能性向上を実現し、55.03\%の新たな最先端性能を確立した。

関連論文リスト

Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。 In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文参考訳（メタデータ） (2025-11-03T17:21:39Z)
AwareCompiler: Agentic Context-Aware Compiler Optimization via a Synergistic Knowledge-Data Driven Framework [42.57224438231615]
本稿では,コンパイラ最適化のためのエージェントフレームワークである textbfAwareCompiler を紹介する。構造化知識統合とデータセット構築、知識駆動適応パス生成、データ駆動ハイブリッドトレーニングパイプラインの3つの重要なイノベーション。標準ベンチマークの実験結果は、AwareCompilerがパフォーマンスと効率の両方で既存のベースラインを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-10-13T02:02:36Z)
SK2Decompile: LLM-based Two-Phase Binary Decompilation from Skeleton to Skin [17.843213826367343]
SK2Decompileは,スケルトン(意味構造)からプログラムのスキン(識別器)へデコンパイルするための新しい2相アプローチである。具体的には、まず、プログラムの「スケルトン」の導出として、プログラムのバイナリコードを中間表現(IR)に変換する構造回復モデルを適用する。我々は,コンパイラが期待する構文的・意味的規則に従うプログラム構造を生成するモデルに,強化学習を適用した。
論文参考訳（メタデータ） (2025-09-26T09:35:46Z)
Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning [31.639220758810747]
コンパイラ自動チューニングのための最初の強化学習(RL)フレームワークであるCompiler-R1を紹介する。私たちのコードとデータセットはhttps://github.com/Panhaolin2001/Compiler-R1.comで公開されています。
論文参考訳（メタデータ） (2025-05-30T00:26:10Z)
CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。 CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-05-07T08:59:14Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文参考訳（メタデータ） (2024-04-24T09:20:33Z)
LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。 LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文参考訳（メタデータ） (2024-03-08T13:10:59Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Large Language Models for Compiler Optimization [22.52765975286403]
コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。最適化前後の命令数と最適化コード自体を予測する。提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
論文参考訳（メタデータ） (2023-09-11T22:11:46Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Extending Source Code Pre-Trained Language Models to Summarise Decompiled Binaries [4.0484792045035505]
ソースコードの事前訓練済み言語モデルを拡張して、逆コンパイルされたバイナリ関数を要約する。このようなモデルの性能に及ぼす入力特性とデータ特性の影響について検討する。 BinT5は最先端のBLEU-4スコアを60.83、58.82、44.21で達成し、ソースを要約し、逆コンパイルし、合成的に削除した。
論文参考訳（メタデータ） (2023-01-04T16:56:33Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
Static Neural Compiler Optimization via Deep Reinforcement Learning [1.458855293397494]
本稿では,位相整合問題に対する深層強化学習手法を用いる。 LLVMのO3シークエンスを構成するサブシーケンスを用いて、エージェントはトレーニングに使用するソースコードのセット上でO3シークエンスより優れていることを学習する。我々は、我々のアプローチを用いて訓練されたモデルは、ニューラル最適化エージェントとして現代のコンパイラに統合できると考えている。
論文参考訳（メタデータ） (2020-08-20T13:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。