Fugu-MT 論文翻訳(概要): LmPa: Improving Decompilation by Synergy of Large Language Model and Program Analysis

論文の概要: LmPa: Improving Decompilation by Synergy of Large Language Model and Program Analysis

arxiv url: http://arxiv.org/abs/2306.02546v1
Date: Mon, 5 Jun 2023 02:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 04:36:30.010016
Title: LmPa: Improving Decompilation by Synergy of Large Language Model and Program Analysis
Title（参考訳）: LmPa:大規模言語モデルとプログラム解析の相乗効果によるデコンパイルの改善
Authors: Xiangzhe Xu, Zhuo Zhang, Shiwei Feng, Yapeng Ye, Zian Su, Nan Jiang, Siyuan Cheng, Lin Tan, Xiangyu Zhang
Abstract要約: 逆コンパイルにおける顕著な課題は、変数名を復元することである。大規模言語モデル(LLM)とプログラム解析の相乗効果を利用する新しい手法を提案する。その結果, 回収された名前の75%は, ユーザによってよく評価されていることがわかった。
参考スコア（独自算出の注目度）: 19.494171220870758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decompilation aims to recover the source code form of a binary executable. It has many applications in security and software engineering such as malware analysis, vulnerability detection and code reuse. A prominent challenge in decompilation is to recover variable names. We propose a novel method that leverages the synergy of large language model (LLM) and program analysis. Language models encode rich multi-modal knowledge, but its limited input size prevents providing sufficient global context for name recovery. We propose to divide the task to many LLM queries and use program analysis to correlate and propagate the query results, which in turn improves the performance of LLM by providing additional contextual information. Our results show that 75% of the recovered names are considered good by users and our technique outperforms the state-of-the-art technique by 16.5% and 20.23% in precision and recall, respectively.
Abstract（参考訳）: Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。マルウェア分析、脆弱性検出、コードの再利用など、セキュリティとソフトウェアエンジニアリングに多くの応用がある。逆コンパイルにおける顕著な課題は、変数名を復元することである。大規模言語モデル(LLM)とプログラム解析の相乗効果を利用する新しい手法を提案する。言語モデルはリッチなマルチモーダル知識をエンコードするが、入力サイズが限られているため、名前回復のための十分なグローバルコンテキストを提供できない。我々は,タスクを多くのLLMクエリに分割し,プログラム解析を用いてクエリ結果の関連付けと伝達を行うことを提案する。その結果, 回収した名前の75%はユーザによってよく評価され, 技術は最先端技術よりも16.5%, 精度は20.23%向上した。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Robust Learning of Diverse Code Edits [10.565439872488328]
ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
論文参考訳（メタデータ） (2025-03-05T16:39:04Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
Idioms: Neural Decompilation With Joint Code and Type Definition Prediction [7.421408987075001]
既存の神経脱コンパイルベンチマークよりもはるかに複雑で現実的な型を含む新しいデータセットであるRealtypeを紹介します。提案手法は, ニューラルデコンパイルにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-02-06T22:13:40Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.61862064581971]
大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶し、希釈するリスクがある。 LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
論文参考訳（メタデータ） (2024-06-13T17:02:32Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。 GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文参考訳（メタデータ） (2024-02-24T08:57:12Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。 textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文参考訳（メタデータ） (2023-12-08T20:28:08Z)
RefBERT: A Two-Stage Pre-trained Framework for Automatic Rename Refactoring [57.8069006460087]
本研究では,他のリネーム活動よりも難易度の高い変数名の自動改名について検討する。変数名に対する名前変更のための2段階事前訓練フレームワークであるRefBERTを提案する。 RefBERTの変数名は既存の手法よりも正確で有意義であることを示す。
論文参考訳（メタデータ） (2023-05-28T12:29:39Z)
Revisiting Deep Learning for Variable Type Recovery [3.075963833361584]
DIRTYはトランスフォーマーベースのデコーダアーキテクチャで、変数名と型でデコンパイルされたコードを拡張することができる。我々は、オープンソースのGhidraデコンパイラによって生成されたデータセット上で、DIRTYモデルを再学習することで、元のDIRTY結果を拡張する。
論文参考訳（メタデータ） (2023-04-07T22:28:28Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文参考訳（メタデータ） (2023-02-20T07:29:34Z)
Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文参考訳（メタデータ） (2023-01-01T13:08:11Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
How Important are Good Method Names in Neural Code Generation? A Model Robustness Perspective [14.453427809903424]
本研究は,PCGMの性能向上のために,手法名から利益を得る可能性について検討し,実証する。我々はRADAR(neural coDe generAtor Robustifier)という新しいアプローチを提案する。 RADAR-Attackは、3つの最先端PCGMにおいて、生成されたコードのコードBLEUを19.72%減らして38.74%に減らすことができる。
論文参考訳（メタデータ） (2022-11-29T00:37:35Z)
DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文参考訳（メタデータ） (2022-01-14T00:16:57Z)
Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling [17.377157455292817]
逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。マスク型言語モデリング(byte-pair)に基づく逆コンパイルコードの変数名を推論する新しい手法を提案する。トレーニングを受けたVarBERTモデルは、元のソースコードに存在する変数名と同じ変数名を最大84.15%まで予測できることを示しています。
論文参考訳（メタデータ） (2021-03-23T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。