論文の概要: Revisiting Deep Learning for Variable Type Recovery
- arxiv url: http://arxiv.org/abs/2304.03854v1
- Date: Fri, 7 Apr 2023 22:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:19:35.253479
- Title: Revisiting Deep Learning for Variable Type Recovery
- Title(参考訳): 可変型リカバリのためのディープラーニングの再検討
- Authors: Kevin Cao, Kevin Leach
- Abstract要約: DIRTYはトランスフォーマーベースのデコーダアーキテクチャで、変数名と型でデコンパイルされたコードを拡張することができる。
我々は、オープンソースのGhidraデコンパイラによって生成されたデータセット上で、DIRTYモデルを再学習することで、元のDIRTY結果を拡張する。
- 参考スコア(独自算出の注目度): 3.075963833361584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compiled binary executables are often the only available artifact in reverse
engineering, malware analysis, and software systems maintenance. Unfortunately,
the lack of semantic information like variable types makes comprehending
binaries difficult. In efforts to improve the comprehensibility of binaries,
researchers have recently used machine learning techniques to predict semantic
information contained in the original source code. Chen et al. implemented
DIRTY, a Transformer-based Encoder-Decoder architecture capable of augmenting
decompiled code with variable names and types by leveraging decompiler output
tokens and variable size information. Chen et al. were able to demonstrate a
substantial increase in name and type extraction accuracy on Hex-Rays
decompiler outputs compared to existing static analysis and AI-based
techniques. We extend the original DIRTY results by re-training the DIRTY model
on a dataset produced by the open-source Ghidra decompiler. Although Chen et
al. concluded that Ghidra was not a suitable decompiler candidate due to its
difficulty in parsing and incorporating DWARF symbols during analysis, we
demonstrate that straightforward parsing of variable data generated by Ghidra
results in similar retyping performance. We hope this work inspires further
interest and adoption of the Ghidra decompiler for use in research projects.
- Abstract(参考訳): コンパイルされたバイナリ実行ファイルは、リバースエンジニアリング、マルウェア分析、ソフトウェアシステムのメンテナンスで利用可能な唯一の成果物である。
残念ながら、変数型のような意味情報の欠如は、解釈するバイナリを難しくする。
バイナリの理解性を改善するために、研究者たちは最近、機械学習技術を使用して、元のソースコードに含まれる意味情報を予測する。
chenらはdirtyを実装した。dirtyはトランスフォーマベースのエンコーダ-デコーダアーキテクチャで、デコンパイラ出力トークンと可変サイズ情報を活用することで、変数名と型で逆コンパイルコードを拡張できる。
chenらは、既存の静的解析やaiベースの技術と比較して、hex-rays decompiler出力における名前と型抽出精度が大幅に向上していることを示した。
オープンソースであるghidra decompilerによって生成されたデータセット上でdirtyモデルを再トレーニングすることで、元のdirty結果を拡張する。
Chenらは、解析中にDWARFシンボルを解析・組み込むのが難しいため、Ghidraは適切な逆コンパイラ候補ではないと結論づけたが、Ghidraによって生成された変数データの簡単な解析は、同様のリタイピング性能をもたらすことを示した。
この研究がGhidraデコンパイラのさらなる関心を喚起し、研究プロジェクトでの利用を期待する。
関連論文リスト
- STRIDE: Simple Type Recognition In Decompiled Executables [16.767295743254458]
そこで本研究では,デコンパイラトークンのシーケンスをトレーニングデータと一致させることで,変数名や型を予測する手法STRIDEを提案する。
3つのベンチマークデータセットで評価した結果、STRIDEは可変リタイピングとリネームの両方において、最先端の機械学習モデルに匹敵するパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-03T01:09:41Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Refining Decompiled C Code with Large Language Models [15.76430362775126]
Cデコンパイラは、実行可能ファイルをソースコードに変換する。
一度再コンパイルされたC言語のソースコードは、元の実行ファイルと同じ機能を持つ実行ファイルを生成することが期待されている。
論文 参考訳(メタデータ) (2023-10-10T11:22:30Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Extending Source Code Pre-Trained Language Models to Summarise
Decompiled Binaries [4.0484792045035505]
ソースコードの事前訓練済み言語モデルを拡張して、逆コンパイルされたバイナリ関数を要約する。
このようなモデルの性能に及ぼす入力特性とデータ特性の影響について検討する。
BinT5は最先端のBLEU-4スコアを60.83、58.82、44.21で達成し、ソースを要約し、逆コンパイルし、合成的に削除した。
論文 参考訳(メタデータ) (2023-01-04T16:56:33Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Variable Name Recovery in Decompiled Binary Code using Constrained
Masked Language Modeling [17.377157455292817]
逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。
マスク型言語モデリング(byte-pair)に基づく逆コンパイルコードの変数名を推論する新しい手法を提案する。
トレーニングを受けたVarBERTモデルは、元のソースコードに存在する変数名と同じ変数名を最大84.15%まで予測できることを示しています。
論文 参考訳(メタデータ) (2021-03-23T19:09:22Z) - Improving type information inferred by decompilers with supervised
machine learning [0.0]
ソフトウェアリバースエンジニアリングでは、逆コンパイルはバイナリファイルからソースコードを回復するプロセスである。
関数によって返される高レベルな型を推測できる異なる分類モデルを構築する。
私たちのシステムは、79.1%のF1測定で関数戻り型を予測できますが、最良の逆コンパイラは30%のF1測定を得ます。
論文 参考訳(メタデータ) (2021-01-19T11:45:46Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。