論文の概要: Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary
- arxiv url: http://arxiv.org/abs/2306.02546v3
- Date: Sat, 20 Jul 2024 01:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:56:27.484664
- Title: Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary
- Title(参考訳): タグ付きバイナリから可変名を取得するためのシンボル選好モデル
- Authors: Xiangzhe Xu, Zhuo Zhang, Zian Su, Ziyang Huang, Shiwei Feng, Yapeng Ye, Nan Jiang, Danning Xie, Siyuan Cheng, Lin Tan, Xiangyu Zhang,
- Abstract要約: 逆コンパイルにおける顕著な課題は、変数名を復元することである。
本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。
我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
- 参考スコア(独自算出の注目度): 18.05110624825475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decompilation aims to recover the source code form of a binary executable. It has many security applications such as malware analysis, vulnerability detection and code hardening. A prominent challenge in decompilation is to recover variable names. We propose a novel technique that leverages the strengths of generative models while mitigating model biases and potential hallucinations. We build a prototype, GenNm, from pre-trained generative models CodeGemma-2B and CodeLlama-7B. We finetune GenNm on decompiled functions, and mitigate model biases by incorporating symbol preference to the training pipeline. GenNm includes names from callers and callees while querying a function, providing rich contextual information within the model's input token limitation. It further leverages program analysis to validate the consistency of names produced by the generative model. Our results show that GenNm improves the state-of-the-art name recovery accuracy by 8.6 and 11.4 percentage points on two commonly used datasets, and improves the state-of-the-art from 8.5% to 22.8% in the most challenging setup where ground-truth variable names are not seen in the training dataset.
- Abstract(参考訳): Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。
マルウェア分析、脆弱性検出、コードのハードニングなど、多くのセキュリティアプリケーションがある。
逆コンパイルにおける顕著な課題は、変数名を復元することである。
本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。
我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
我々は、デコンパイルされた関数にGenNmを微調整し、トレーニングパイプラインにシンボルの好みを取り入れることでモデルバイアスを軽減する。
GenNmには関数のクエリ中に呼び出し元や呼び出し元の名前が含まれており、モデルの入力トークン制限内でリッチなコンテキスト情報を提供する。
さらに、プログラム解析を活用して、生成モデルによって生成された名前の一貫性を検証する。
この結果から、GenNmは2つの一般的なデータセットで8.6と11.4ポイントの精度向上を実現し、トレーニングデータセットに基調変数が見られない最も困難なセットアップでは8.5%から22.8%に改善した。
関連論文リスト
- HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.61862064581971]
大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶し、希釈するリスクがある。
LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
論文 参考訳(メタデータ) (2024-06-13T17:02:32Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - RefBERT: A Two-Stage Pre-trained Framework for Automatic Rename
Refactoring [57.8069006460087]
本研究では,他のリネーム活動よりも難易度の高い変数名の自動改名について検討する。
変数名に対する名前変更のための2段階事前訓練フレームワークであるRefBERTを提案する。
RefBERTの変数名は既存の手法よりも正確で有意義であることを示す。
論文 参考訳(メタデータ) (2023-05-28T12:29:39Z) - Revisiting Deep Learning for Variable Type Recovery [3.075963833361584]
DIRTYはトランスフォーマーベースのデコーダアーキテクチャで、変数名と型でデコンパイルされたコードを拡張することができる。
我々は、オープンソースのGhidraデコンパイラによって生成されたデータセット上で、DIRTYモデルを再学習することで、元のDIRTY結果を拡張する。
論文 参考訳(メタデータ) (2023-04-07T22:28:28Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Pseudo Label-Guided Model Inversion Attack via Conditional Generative
Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。
近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。
我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-20T07:29:34Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - How Important are Good Method Names in Neural Code Generation? A Model
Robustness Perspective [14.453427809903424]
本研究は,PCGMの性能向上のために,手法名から利益を得る可能性について検討し,実証する。
我々はRADAR(neural coDe generAtor Robustifier)という新しいアプローチを提案する。
RADAR-Attackは、3つの最先端PCGMにおいて、生成されたコードのコードBLEUを19.72%減らして38.74%に減らすことができる。
論文 参考訳(メタデータ) (2022-11-29T00:37:35Z) - Variable Name Recovery in Decompiled Binary Code using Constrained
Masked Language Modeling [17.377157455292817]
逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。
マスク型言語モデリング(byte-pair)に基づく逆コンパイルコードの変数名を推論する新しい手法を提案する。
トレーニングを受けたVarBERTモデルは、元のソースコードに存在する変数名と同じ変数名を最大84.15%まで予測できることを示しています。
論文 参考訳(メタデータ) (2021-03-23T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。