Fugu-MT 論文翻訳(概要): LLM4Decompile: Decompiling Binary Code with Large Language Models

論文の概要: LLM4Decompile: Decompiling Binary Code with Large Language Models

arxiv url: http://arxiv.org/abs/2403.05286v1
Date: Fri, 8 Mar 2024 13:10:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 19:37:24.473953
Title: LLM4Decompile: Decompiling Binary Code with Large Language Models
Title（参考訳）: LLM4Decompile: 大きな言語モデルでバイナリコードを分解する
Authors: Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang
Abstract要約: Decompilationは、コンパイルされたコードを可読性のあるソースコードに復元することを目的としている。大規模言語モデル(LLM)は、プログラムタスクの約束を示し、そのアプリケーションを非コンパイルに動機付ける。 C ソースコードの40億個のトークンと対応するアセンブリコードで事前訓練された 1B から 33B までの,最初のオープンアクセス逆コンパイル LLM をリリースする。
参考スコア（独自算出の注目度）: 11.302601810557315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile
Abstract（参考訳）: Decompilationは、コンパイルされたコードを可読性のあるソースコードに復元することを目的としている。大規模言語モデル(LLM)は、プログラムタスクの約束を示し、そのアプリケーションを非コンパイルに動機付ける。しかし、逆コンパイルのためのオープンソースの LLM は存在しない。さらに、既存の非コンパイル評価システムは主にトークンレベルの精度を考慮しており、どのプログラムでも最も重要な機能であるコード実行可能性を無視している。そこで我々は,C ソースコードと対応するアセンブリコードの40億個のトークンを事前訓練した 1B から 33B までの,最初のオープンアクセス逆コンパイル LLM をリリースする。オープンソースのLLMは、この分野におけるさらなる開発のためのベースラインとして機能する。実用的なプログラム評価を実現するために,再コンパイル性と再実行性を考慮した最初のデータセットであるDecompile-Evalを導入する。このベンチマークは、プログラムの意味論の観点から逆コンパイルモデルを評価することの重要性を強調している。 LLM4Decompileは、アセンブリコードの21%を正確に分解できる能力を示しており、GPT-4よりも50%改善されている。私たちのコード、データセット、モデルはhttps://github.com/albertan017/LLM4Decompileでリリースされます。

関連論文リスト

Evaluating and Achieving Controllable Code Completion in Code LLM [89.64782747840225]
命令誘導型コード補完ベンチマークである制御可能コード補完ベンチマーク(C3-Bench)を提案する。コード補完作業中に,オープンソースのプロプライエタリモデルと高度なプロプライエタリモデルの間に,命令追従機能にかなりのギャップがあることを明らかにする。結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-22T11:40:04Z)
Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。 In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文参考訳（メタデータ） (2025-11-03T17:21:39Z)
SALT4Decompile: Inferring Source-level Abstract Logic Tree for LLM-Based Binary Decompilation [17.58664677898224]
Saltmはバイナリとソースコードの間の安定した論理的特徴を抽象化する新しいバイナリ逆コンパイル法である。 Saltmはソースコードのロジックを回復するのに非常に効果的で、最先端のメソッドよりもはるかに優れている。
論文参考訳（メタデータ） (2025-09-18T05:57:15Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。 LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文参考訳（メタデータ） (2025-07-11T14:29:21Z)
D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
D-LiFT(D-LiFT)は、LLMを活用して強化学習(RL)によるデコンパイルコードの品質向上を図る自動デコンパイラバックエンドである。 D-LiFTは、コンパイルされたコードの品質を高めるための鍵となる原則に準拠している。 D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。
論文参考訳（メタデータ） (2025-06-11T19:09:08Z)
Trim My View: An LLM-Based Code Query System for Module Retrieval in Robotic Firmware [7.308605205194037]
本稿では, 2次分解法, 除算法, LLM による関数要約の組み合わせが, 経済的なエンジン構築にどのように役立つかを示す。我々は,この手法を3つの基盤となるオープンソースLLMを用いてインスタンス化し,ロボットファームウェアのモジュール識別の有効性を測定した。
論文参考訳（メタデータ） (2025-03-05T23:40:17Z)
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [57.604506522287814]
既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。機能的セマンティクスや構文構造,変数依存性といった実行可能性表現を活用するために,ExeCoderを提案する。 ExeCoderは、既存のオープンソースコードLLMを10.88%以上、38.78%以上、27.44%以上、42.97%以上という、2つのメトリクスで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-30T16:18:52Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization [37.4446786461791]
本稿では,オープンソースの命令調整型Verilog生成用LLMであるCodeVを紹介する。 CodeVは以前のオープンソースSOTAを14.4%(VerilogEvalのBetterV)と11.3%(RTLCoder in RTLLM)で相対的に上回っている。
論文参考訳（メタデータ） (2024-07-15T03:57:20Z)
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。 InverseCoder というコード LLM のシリーズを提示する。これは、広範囲のベンチマークにおいて、元のコード LLM のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
Meta Large Language Model Compiler: Foundation Models of Compiler Optimization [21.161784011956126]
大規模言語モデル(LLM)は、様々なソフトウェア工学やコーディングタスクにまたがる顕著な機能を示している。しかしながら、コード領域におけるそれらのアプリケーションとコンパイラの最適化については、まだ未検討である。 Meta Large Language Model Compiler (LLM Compiler)は、コード最適化タスクのための、堅牢で、オープンに利用可能な、事前訓練されたモデルのスイートである。
論文参考訳（メタデータ） (2024-06-27T21:47:48Z)
Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。 BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。 BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文参考訳（メタデータ） (2024-06-05T12:45:25Z)
Performance-Aligned LLMs for Generating Fast Code [2.180216161965907]
コードLLMの出力と性能を一致させる強化学習に基づく手法を提案する。我々は,一連のベンチマークタスクのベースモデル上でのコード生成の高速化を,微調整モデルにより改善できることを実証した。
論文参考訳（メタデータ） (2024-04-29T16:52:38Z)
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文参考訳（メタデータ） (2024-02-27T18:56:19Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models [117.92988284226765]
大規模言語モデル(LLM)は命令従者であるが、異なる状況に最適な命令を見つけることは困難である。我々は,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。 InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。
論文参考訳（メタデータ） (2023-06-05T17:55:22Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。