論文の概要: Control Flow-Augmented Decompiler based on Large Language Model
- arxiv url: http://arxiv.org/abs/2503.07215v1
- Date: Mon, 10 Mar 2025 11:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:13.647440
- Title: Control Flow-Augmented Decompiler based on Large Language Model
- Title(参考訳): 大規模言語モデルに基づく制御フロー拡張型デコンパイラ
- Authors: Peipei Liu, Jian Sun, Li Chen, Zhaoteng Yan, Peizheng Zhang, Dapeng Sun, Dawei Wang, Dan Li,
- Abstract要約: 本稿では,従来のエンドツーエンド逆コンパイル手法を強化することを目的とした,新しいエンドツーエンド逆コンパイル LLM (CFADecLLM) を提案する。
公開データセットであるHumanevalとExebenchについて,4つの最適化レベルにわたって広範な実験を行った。
その結果,提案手法は既存の手法を複数の指標で比較し,その有効性と優越性を検証した。
- 参考スコア(独自算出の注目度): 44.59939112669793
- License:
- Abstract: Binary decompilation plays a crucial role in various tasks related to security threat analysis and software engineering, such as binary vulnerability detection and software supply chain analysis. Current prevalent binary decompilation methods primarily rely on large language models (LLMs) and can be broadly classified into two main approaches: prompt-based decompilation and end-toend decompilation. Prompt-based methods typically require significant effort to analyze and summarize the predicted data to extract aspect-specific expert knowledge, which is then fed into a general purpose large language model to address specific decompilation tasks. End-to-end methods, on the other hand, carefully construct training datasets or neural networks to perform post-training on general-purpose large language models, thereby obtaining domain-specific large language models for decompiling the predicted data. However, both existing approaches still face significant challenges, including the absence of rich semantic representations of the input code and the neglect of control flow information, which is crucial for accurate decompilation. Furthermore, most current decompilation techniques are specifically tailored for the x86 architecture, making it difficult to efficiently adapt and generalize them to other bit width or instruction architectures. To address these limitations, we propose a novel end-to-end decompilation LLM, CFADecLLM, which aims to enhance existing end-to-end decompilation methods. We conduct extensive experiments on the public dataset Humaneval and Exebench across four optimization levels, and results demonstrate that our approach outperforms existing methods in multiple metrics, validating its effectiveness and superiority.
- Abstract(参考訳): バイナリ逆コンパイルは、セキュリティ脅威分析やバイナリ脆弱性検出やソフトウェアサプライチェーン分析といったソフトウェアエンジニアリングに関連する様々なタスクにおいて重要な役割を果たす。
現在の一般的なバイナリ・デコンパイル法は主に大きな言語モデル(LLM)に依存しており、プロンプトベースのデコンパイルとエンド・ツー・デコンパイルの2つの主要なアプローチに大別できる。
プロンプトベースの手法では、予測されたデータを分析して要約してアスペクト固有の専門知識を抽出し、特定の非コンパイルタスクに対処するために汎用の大規模言語モデルに入力するのが一般的である。
一方、エンドツーエンドの手法では、トレーニングデータセットやニューラルネットワークを慎重に構築し、汎用的な大規模言語モデルによる後学習を行い、予測されたデータを逆コンパイルするためのドメイン固有の大規模言語モデルを得る。
しかし、既存の2つのアプローチは、入力コードのリッチな意味表現の欠如や、正確な逆コンパイルに不可欠な制御フロー情報の欠如など、大きな課題に直面している。
さらに、現在のデコンパイル技術の多くはx86アーキテクチャに特化しており、他のビット幅や命令アーキテクチャに効率よく適応し一般化することは困難である。
これらの制約に対処するために,既存のエンドツーエンド逆コンパイル手法を強化することを目的とした,新しいエンドツーエンド逆コンパイル LLM CFADecLLM を提案する。
我々は,公開データセットHumanevalとExebenchの4つの最適化レベルにわたる広範な実験を行い,提案手法が既存の手法を複数のメトリクスで上回り,その有効性と優越性を検証した。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。
このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。
本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文 参考訳(メタデータ) (2025-01-09T14:00:01Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Cross-Lingual Adaptation for Type Inference [29.234418962960905]
弱い型付き言語間で深層学習に基づく型推論を行うための言語間適応フレームワークPLATOを提案する。
強く型付けされた言語からのデータを活用することで、PLATOは、バックボーンのクロスプログラミング言語モデルの難易度を改善する。
論文 参考訳(メタデータ) (2021-07-01T00:20:24Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。