論文の概要: A Natural Language Processing Approach for Instruction Set Architecture
Identification
- arxiv url: http://arxiv.org/abs/2204.06624v1
- Date: Wed, 13 Apr 2022 19:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 06:06:32.661904
- Title: A Natural Language Processing Approach for Instruction Set Architecture
Identification
- Title(参考訳): 命令集合アーキテクチャ識別のための自然言語処理手法
- Authors: Dinuka Sahabandu, Sukarno Mertoguno, Radha Poovendran
- Abstract要約: 符号化されたバイナリの文字レベルの特徴を導入し、各ISA固有のきめ細かいビットパターンを識別する。
提案手法は,バイト・ヒストグラムとバイト・パターン・シグネチャに基づく最先端特徴よりも8%高い精度が得られる。
- 参考スコア(独自算出の注目度): 6.495883501989546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary analysis of software is a critical step in cyber forensics
applications such as program vulnerability assessment and malware detection.
This involves interpreting instructions executed by software and often
necessitates converting the software's binary file data to assembly language.
The conversion process requires information about the binary file's target
instruction set architecture (ISA). However, ISA information might not be
included in binary files due to compilation errors, partial downloads, or
adversarial corruption of file metadata. Machine learning (ML) is a promising
methodology that can be used to identify the target ISA using binary data in
the object code section of binary files. In this paper we propose a binary code
feature extraction model to improve the accuracy and scalability of ML-based
ISA identification methods. Our feature extraction model can be used in the
absence of domain knowledge about the ISAs. Specifically, we adapt models from
natural language processing (NLP) to i) identify successive byte patterns
commonly observed in binary codes, ii) estimate the significance of each byte
pattern to a binary file, and iii) estimate the relevance of each byte pattern
in distinguishing between ISAs. We introduce character-level features of
encoded binaries to identify fine-grained bit patterns inherent to each ISA. We
use a dataset with binaries from 12 different ISAs to evaluate our approach.
Empirical evaluations show that using our byte-level features in ML-based ISA
identification results in an 8% higher accuracy than the state-of-the-art
features based on byte-histograms and byte pattern signatures. We observe that
character-level features allow reducing the size of the feature set by up to
16x while maintaining accuracy above 97%.
- Abstract(参考訳): ソフトウェアのバイナリ解析は、プログラム脆弱性評価やマルウェア検出など、サイバー法医学の応用において重要なステップである。
これは、ソフトウェアによって実行される命令を解釈することを含み、しばしばソフトウェアのバイナリファイルデータをアセンブリ言語に変換する必要がある。
変換プロセスはバイナリファイルのターゲット命令セットアーキテクチャ(ISA)に関する情報を必要とする。
しかし、isa情報はコンパイルエラー、部分ダウンロード、ファイルメタデータの破壊などによりバイナリファイルに含まれない可能性がある。
機械学習(ML)は、バイナリファイルのオブジェクトコードセクションのバイナリデータを使用して、ターゲットISAを識別するために使用できる有望な方法論である。
本稿では,MLに基づくISA識別手法の精度とスケーラビリティを向上させるために,バイナリコード特徴抽出モデルを提案する。
我々の特徴抽出モデルは、ISAに関するドメイン知識がない場合に利用できる。
具体的には、自然言語処理(NLP)からモデルに適用する。
一 バイナリコードでよく見られる連続したバイトパターンを識別すること
二 バイナリファイルに対する各バイトパターンの意義を推定すること、及び
三 ISAの区別における各バイトパターンの関連性を推定すること。
符号化されたバイナリの文字レベル特徴を導入し、各ISA固有のきめ細かいビットパターンを特定する。
12の異なるISAのバイナリを持つデータセットを使用して、アプローチを評価します。
経験的評価の結果,MLによるISA識別におけるバイトレベルの特徴は,バイトヒストグラムやバイトパターンのシグネチャに基づく最先端の特徴よりも8%高い精度が得られた。
文字レベルの機能は、精度を97%以上維持しながら、最大16倍のサイズを削減できることを観察した。
関連論文リスト
- StrTune: Data Dependence-based Code Slicing for Binary Similarity Detection with Fine-tuned Representation [5.41477941455399]
BCSDは、悪意のあるコードスニペットの識別や、コードパターンの比較によるバイナリパッチ解析といったバイナリタスクに対処することができる。
バイナリは異なるコンパイル構成でコンパイルされるため、既存のアプローチはバイナリの類似性を比較する際にも注目すべき制限に直面している。
データ依存に基づいてバイナリコードをスライスし,スライスレベルの微調整を行うStrTuneを提案する。
論文 参考訳(メタデータ) (2024-11-19T12:20:08Z) - Discovery of Endianness and Instruction Size Characteristics in Binary Programs from Unknown Instruction Set Architectures [0.0]
未知の命令セットアーキテクチャ(ISA)によるバイナリプログラムのリバースエンジニアリングの合理化問題について検討する。
本稿では,REプロセス開始までの2つの基本的なISA特性,すなわちエンディアンネスの同定と,命令幅が固定か可変かの判定に焦点をあてる。
我々は,信号処理アプリケーションで一般的に用いられている,エンディアンス検出のためのBigramベースの特徴と自己相関関数を用いて,固定幅と可変幅の命令サイズを区別する。
論文 参考訳(メタデータ) (2024-10-28T21:43:53Z) - Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery [2.022692275087205]
クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
論文 参考訳(メタデータ) (2024-04-29T18:09:28Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Beyond Language Models: Byte Models are Digital World Simulators [68.91268999567473]
bGPTは、デジタルワールドをシミュレートする次のバイト予測モデルである。
これは、テキスト、オーディオ、画像など、様々なモダリティにわたるパフォーマンスの特殊なモデルと一致している。
シンボリックな音楽データを変換する過程をほぼ完璧に再現し、1バイトあたり0.0011ビットの誤り率を達成した。
論文 参考訳(メタデータ) (2024-02-29T13:38:07Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - PEM: Representing Binary Program Semantics for Similarity Analysis via a
Probabilistic Execution Model [25.014876893315208]
本稿では,バイナリプログラムのセマンティクスを表現する新しい手法を提案する。
対象バイナリの入力空間とプログラムパス空間を効果的にサンプリングできる新しい確率的実行エンジンに基づいている。
実世界の35k機能を有する9つのプロジェクトに対する評価と6つの最先端技術との比較により,PEMは一般的な設定で96%の精度を達成できることが示された。
論文 参考訳(メタデータ) (2023-08-29T17:20:35Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。