Fugu-MT 論文翻訳(概要): Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary

論文の概要: Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary

arxiv url: http://arxiv.org/abs/2306.02546v3
Date: Sat, 20 Jul 2024 01:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 05:56:27.484664
Title: Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary
Title（参考訳）: タグ付きバイナリから可変名を取得するためのシンボル選好モデル
Authors: Xiangzhe Xu, Zhuo Zhang, Zian Su, Ziyang Huang, Shiwei Feng, Yapeng Ye, Nan Jiang, Danning Xie, Siyuan Cheng, Lin Tan, Xiangyu Zhang,
Abstract要約: 逆コンパイルにおける顕著な課題は、変数名を復元することである。本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
参考スコア（独自算出の注目度）: 18.05110624825475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decompilation aims to recover the source code form of a binary executable. It has many security applications such as malware analysis, vulnerability detection and code hardening. A prominent challenge in decompilation is to recover variable names. We propose a novel technique that leverages the strengths of generative models while mitigating model biases and potential hallucinations. We build a prototype, GenNm, from pre-trained generative models CodeGemma-2B and CodeLlama-7B. We finetune GenNm on decompiled functions, and mitigate model biases by incorporating symbol preference to the training pipeline. GenNm includes names from callers and callees while querying a function, providing rich contextual information within the model's input token limitation. It further leverages program analysis to validate the consistency of names produced by the generative model. Our results show that GenNm improves the state-of-the-art name recovery accuracy by 8.6 and 11.4 percentage points on two commonly used datasets, and improves the state-of-the-art from 8.5% to 22.8% in the most challenging setup where ground-truth variable names are not seen in the training dataset.
Abstract（参考訳）: Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。マルウェア分析、脆弱性検出、コードのハードニングなど、多くのセキュリティアプリケーションがある。逆コンパイルにおける顕著な課題は、変数名を復元することである。本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。我々は、デコンパイルされた関数にGenNmを微調整し、トレーニングパイプラインにシンボルの好みを取り入れることでモデルバイアスを軽減する。 GenNmには関数のクエリ中に呼び出し元や呼び出し元の名前が含まれており、モデルの入力トークン制限内でリッチなコンテキスト情報を提供する。さらに、プログラム解析を活用して、生成モデルによって生成された名前の一貫性を検証する。この結果から、GenNmは2つの一般的なデータセットで8.6と11.4ポイントの精度向上を実現し、トレーニングデータセットに基調変数が見られない最も困難なセットアップでは8.5%から22.8%に改善した。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Robust Learning of Diverse Code Edits [10.565439872488328]
ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
論文参考訳（メタデータ） (2025-03-05T16:39:04Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
Idioms: Neural Decompilation With Joint Code and Type Definition Prediction [7.421408987075001]
既存の神経脱コンパイルベンチマークよりもはるかに複雑で現実的な型を含む新しいデータセットであるRealtypeを紹介します。提案手法は, ニューラルデコンパイルにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-02-06T22:13:40Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.61862064581971]
大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶し、希釈するリスクがある。 LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
論文参考訳（メタデータ） (2024-06-13T17:02:32Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。 GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文参考訳（メタデータ） (2024-02-24T08:57:12Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。 textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文参考訳（メタデータ） (2023-12-08T20:28:08Z)
RefBERT: A Two-Stage Pre-trained Framework for Automatic Rename Refactoring [57.8069006460087]
本研究では,他のリネーム活動よりも難易度の高い変数名の自動改名について検討する。変数名に対する名前変更のための2段階事前訓練フレームワークであるRefBERTを提案する。 RefBERTの変数名は既存の手法よりも正確で有意義であることを示す。
論文参考訳（メタデータ） (2023-05-28T12:29:39Z)
Revisiting Deep Learning for Variable Type Recovery [3.075963833361584]
DIRTYはトランスフォーマーベースのデコーダアーキテクチャで、変数名と型でデコンパイルされたコードを拡張することができる。我々は、オープンソースのGhidraデコンパイラによって生成されたデータセット上で、DIRTYモデルを再学習することで、元のDIRTY結果を拡張する。
論文参考訳（メタデータ） (2023-04-07T22:28:28Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文参考訳（メタデータ） (2023-02-20T07:29:34Z)
Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文参考訳（メタデータ） (2023-01-01T13:08:11Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
How Important are Good Method Names in Neural Code Generation? A Model Robustness Perspective [14.453427809903424]
本研究は,PCGMの性能向上のために,手法名から利益を得る可能性について検討し,実証する。我々はRADAR(neural coDe generAtor Robustifier)という新しいアプローチを提案する。 RADAR-Attackは、3つの最先端PCGMにおいて、生成されたコードのコードBLEUを19.72%減らして38.74%に減らすことができる。
論文参考訳（メタデータ） (2022-11-29T00:37:35Z)
DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文参考訳（メタデータ） (2022-01-14T00:16:57Z)
Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling [17.377157455292817]
逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。マスク型言語モデリング(byte-pair)に基づく逆コンパイルコードの変数名を推論する新しい手法を提案する。トレーニングを受けたVarBERTモデルは、元のソースコードに存在する変数名と同じ変数名を最大84.15%まで予測できることを示しています。
論文参考訳（メタデータ） (2021-03-23T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。