論文の概要: LmPa: Improving Decompilation by Synergy of Large Language Model and
Program Analysis
- arxiv url: http://arxiv.org/abs/2306.02546v1
- Date: Mon, 5 Jun 2023 02:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:36:30.010016
- Title: LmPa: Improving Decompilation by Synergy of Large Language Model and
Program Analysis
- Title(参考訳): LmPa:大規模言語モデルとプログラム解析の相乗効果によるデコンパイルの改善
- Authors: Xiangzhe Xu, Zhuo Zhang, Shiwei Feng, Yapeng Ye, Zian Su, Nan Jiang,
Siyuan Cheng, Lin Tan, Xiangyu Zhang
- Abstract要約: 逆コンパイルにおける顕著な課題は、変数名を復元することである。
大規模言語モデル(LLM)とプログラム解析の相乗効果を利用する新しい手法を提案する。
その結果, 回収された名前の75%は, ユーザによってよく評価されていることがわかった。
- 参考スコア(独自算出の注目度): 19.494171220870758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decompilation aims to recover the source code form of a binary executable. It
has many applications in security and software engineering such as malware
analysis, vulnerability detection and code reuse. A prominent challenge in
decompilation is to recover variable names. We propose a novel method that
leverages the synergy of large language model (LLM) and program analysis.
Language models encode rich multi-modal knowledge, but its limited input size
prevents providing sufficient global context for name recovery. We propose to
divide the task to many LLM queries and use program analysis to correlate and
propagate the query results, which in turn improves the performance of LLM by
providing additional contextual information. Our results show that 75% of the
recovered names are considered good by users and our technique outperforms the
state-of-the-art technique by 16.5% and 20.23% in precision and recall,
respectively.
- Abstract(参考訳): Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。
マルウェア分析、脆弱性検出、コードの再利用など、セキュリティとソフトウェアエンジニアリングに多くの応用がある。
逆コンパイルにおける顕著な課題は、変数名を復元することである。
大規模言語モデル(LLM)とプログラム解析の相乗効果を利用する新しい手法を提案する。
言語モデルはリッチなマルチモーダル知識をエンコードするが、入力サイズが限られているため、名前回復のための十分なグローバルコンテキストを提供できない。
我々は,タスクを多くのLLMクエリに分割し,プログラム解析を用いてクエリ結果の関連付けと伝達を行うことを提案する。
その結果, 回収した名前の75%はユーザによってよく評価され, 技術は最先端技術よりも16.5%, 精度は20.23%向上した。
関連論文リスト
- ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。
GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。
最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文 参考訳(メタデータ) (2024-02-24T08:57:12Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - How Important are Good Method Names in Neural Code Generation? A Model
Robustness Perspective [14.453427809903424]
本研究は,PCGMの性能向上のために,手法名から利益を得る可能性について検討し,実証する。
我々はRADAR(neural coDe generAtor Robustifier)という新しいアプローチを提案する。
RADAR-Attackは、3つの最先端PCGMにおいて、生成されたコードのコードBLEUを19.72%減らして38.74%に減らすことができる。
論文 参考訳(メタデータ) (2022-11-29T00:37:35Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Variable Name Recovery in Decompiled Binary Code using Constrained
Masked Language Modeling [17.377157455292817]
逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。
マスク型言語モデリング(byte-pair)に基づく逆コンパイルコードの変数名を推論する新しい手法を提案する。
トレーニングを受けたVarBERTモデルは、元のソースコードに存在する変数名と同じ変数名を最大84.15%まで予測できることを示しています。
論文 参考訳(メタデータ) (2021-03-23T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。