Fugu-MT 論文翻訳(概要): Control Flow-Augmented Decompiler based on Large Language Model

論文の概要: Control Flow-Augmented Decompiler based on Large Language Model

arxiv url: http://arxiv.org/abs/2503.07215v1
Date: Mon, 10 Mar 2025 11:52:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.872377
Title: Control Flow-Augmented Decompiler based on Large Language Model
Title（参考訳）: 大規模言語モデルに基づく制御フロー拡張型デコンパイラ
Authors: Peipei Liu, Jian Sun, Li Chen, Zhaoteng Yan, Peizheng Zhang, Dapeng Sun, Dawei Wang, Dan Li,
Abstract要約: 本稿では,従来のエンドツーエンド逆コンパイル手法を強化することを目的とした,新しいエンドツーエンド逆コンパイル LLM (CFADecLLM) を提案する。公開データセットであるHumanevalとExebenchについて,4つの最適化レベルにわたって広範な実験を行った。その結果,提案手法は既存の手法を複数の指標で比較し,その有効性と優越性を検証した。
参考スコア（独自算出の注目度）: 44.59939112669793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Binary decompilation plays a crucial role in various tasks related to security threat analysis and software engineering, such as binary vulnerability detection and software supply chain analysis. Current prevalent binary decompilation methods primarily rely on large language models (LLMs) and can be broadly classified into two main approaches: prompt-based decompilation and end-toend decompilation. Prompt-based methods typically require significant effort to analyze and summarize the predicted data to extract aspect-specific expert knowledge, which is then fed into a general purpose large language model to address specific decompilation tasks. End-to-end methods, on the other hand, carefully construct training datasets or neural networks to perform post-training on general-purpose large language models, thereby obtaining domain-specific large language models for decompiling the predicted data. However, both existing approaches still face significant challenges, including the absence of rich semantic representations of the input code and the neglect of control flow information, which is crucial for accurate decompilation. Furthermore, most current decompilation techniques are specifically tailored for the x86 architecture, making it difficult to efficiently adapt and generalize them to other bit width or instruction architectures. To address these limitations, we propose a novel end-to-end decompilation LLM, CFADecLLM, which aims to enhance existing end-to-end decompilation methods. We conduct extensive experiments on the public dataset Humaneval and Exebench across four optimization levels, and results demonstrate that our approach outperforms existing methods in multiple metrics, validating its effectiveness and superiority.
Abstract（参考訳）: バイナリ逆コンパイルは、セキュリティ脅威分析やバイナリ脆弱性検出やソフトウェアサプライチェーン分析といったソフトウェアエンジニアリングに関連する様々なタスクにおいて重要な役割を果たす。現在の一般的なバイナリ・デコンパイル法は主に大きな言語モデル(LLM)に依存しており、プロンプトベースのデコンパイルとエンド・ツー・デコンパイルの2つの主要なアプローチに大別できる。プロンプトベースの手法では、予測されたデータを分析して要約してアスペクト固有の専門知識を抽出し、特定の非コンパイルタスクに対処するために汎用の大規模言語モデルに入力するのが一般的である。一方、エンドツーエンドの手法では、トレーニングデータセットやニューラルネットワークを慎重に構築し、汎用的な大規模言語モデルによる後学習を行い、予測されたデータを逆コンパイルするためのドメイン固有の大規模言語モデルを得る。しかし、既存の2つのアプローチは、入力コードのリッチな意味表現の欠如や、正確な逆コンパイルに不可欠な制御フロー情報の欠如など、大きな課題に直面している。さらに、現在のデコンパイル技術の多くはx86アーキテクチャに特化しており、他のビット幅や命令アーキテクチャに効率よく適応し一般化することは困難である。これらの制約に対処するために,既存のエンドツーエンド逆コンパイル手法を強化することを目的とした,新しいエンドツーエンド逆コンパイル LLM CFADecLLM を提案する。我々は,公開データセットHumanevalとExebenchの4つの最適化レベルにわたる広範な実験を行い,提案手法が既存の手法を複数のメトリクスで上回り,その有効性と優越性を検証した。

関連論文リスト

Post-Incorporating Code Structural Knowledge into LLMs via In-Context Learning for Code Translation [10.77747590700758]
大規模言語モデル(LLM)はソフトウェアマイニングにおいて大きな進歩を遂げた。ソースコードの構文構造を扱うことは依然として課題です本稿では、コード構造知識を事前学習したLLMに組み込むために、インコンテキスト学習(ICL)を用いる。
論文参考訳（メタデータ） (2025-03-28T10:59:42Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [0.0]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文参考訳（メタデータ） (2025-01-09T14:00:01Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。 MoIは命令パッキングと多様なシステムプロンプトを組み合わせて言語モデルのアライメント効率を高める戦略を採用している。提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文参考訳（メタデータ） (2024-04-29T03:58:12Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)
Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文参考訳（メタデータ） (2022-10-21T22:47:37Z)
Leveraging Key Information Modeling to Improve Less-Data Constrained News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-10-10T07:59:36Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Comparative Code Structure Analysis using Deep Learning for Performance Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文参考訳（メタデータ） (2021-02-12T16:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。