論文の概要: Leveraging Generative Models to Recover Variable Names from Stripped Binary
- arxiv url: http://arxiv.org/abs/2306.02546v2
- Date: Wed, 1 May 2024 02:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 20:40:32.079604
- Title: Leveraging Generative Models to Recover Variable Names from Stripped Binary
- Title(参考訳): 階層化されたバイナリから変数名を復元する生成モデルを活用する
- Authors: Xiangzhe Xu, Zhuo Zhang, Zian Su, Ziyang Huang, Shiwei Feng, Yapeng Ye, Nan Jiang, Danning Xie, Siyuan Cheng, Lin Tan, Xiangyu Zhang,
- Abstract要約: Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。
逆コンパイルにおける顕著な課題は、変数名を復元することである。
生成モデルの強みを生かし,幻覚を抑える新しい手法を提案する。
- 参考スコア(独自算出の注目度): 18.05110624825475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decompilation aims to recover the source code form of a binary executable. It has many security applications such as malware analysis, vulnerability detection and code hardening. A prominent challenge in decompilation is to recover variable names. We propose a novel technique that leverages the strengths of generative models while suppressing potential hallucinations and overcoming the input token limitation. We build a prototype, GenNm, from a pre-trained generative model Code-Llama. We fine-tune GenNm on decompiled functions, and leverage program analysis to validate the results produced by the generative model. GenNm includes names from callers and callees while querying a function, providing rich contextual information within the model's input token limitation. Our results show that GenNm improves the state-of-the-art from 48.1% to 57.9% in the most challenging setup where a query function is not seen in the training dataset.
- Abstract(参考訳): Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。
マルウェア分析、脆弱性検出、コードのハードニングなど、多くのセキュリティアプリケーションがある。
逆コンパイルにおける顕著な課題は、変数名を復元することである。
本稿では,潜在的な幻覚を抑えつつ,入力トークン制限を克服しながら生成モデルの強みを活用する新しい手法を提案する。
我々は、事前訓練された生成モデルであるCode-LlamaからプロトタイプGenNmを構築した。
我々は、逆コンパイル関数にGenNmを微調整し、プログラム解析を利用して生成モデルが生成した結果を検証する。
GenNmには関数のクエリ中に呼び出し元や呼び出し元の名前が含まれており、モデルの入力トークン制限内でリッチなコンテキスト情報を提供する。
我々の結果は、クエリ関数がトレーニングデータセットに見られない最も困難なセットアップにおいて、GenNmが48.1%から57.9%に改善していることを示している。
関連論文リスト
- ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。
GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。
最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文 参考訳(メタデータ) (2024-02-24T08:57:12Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - How Important are Good Method Names in Neural Code Generation? A Model
Robustness Perspective [14.453427809903424]
本研究は,PCGMの性能向上のために,手法名から利益を得る可能性について検討し,実証する。
我々はRADAR(neural coDe generAtor Robustifier)という新しいアプローチを提案する。
RADAR-Attackは、3つの最先端PCGMにおいて、生成されたコードのコードBLEUを19.72%減らして38.74%に減らすことができる。
論文 参考訳(メタデータ) (2022-11-29T00:37:35Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Variable Name Recovery in Decompiled Binary Code using Constrained
Masked Language Modeling [17.377157455292817]
逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。
マスク型言語モデリング(byte-pair)に基づく逆コンパイルコードの変数名を推論する新しい手法を提案する。
トレーニングを受けたVarBERTモデルは、元のソースコードに存在する変数名と同じ変数名を最大84.15%まで予測できることを示しています。
論文 参考訳(メタデータ) (2021-03-23T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。