論文の概要: Discovery of Endianness and Instruction Size Characteristics in Binary Programs from Unknown Instruction Set Architectures
- arxiv url: http://arxiv.org/abs/2410.21558v1
- Date: Mon, 28 Oct 2024 21:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:41.991650
- Title: Discovery of Endianness and Instruction Size Characteristics in Binary Programs from Unknown Instruction Set Architectures
- Title(参考訳): 未知の命令セットアーキテクチャによる2元プログラムのエンディアンネスと命令サイズ特性の発見
- Authors: Joachim Andreassen, Donn Morrison,
- Abstract要約: 未知の命令セットアーキテクチャ(ISA)によるバイナリプログラムのリバースエンジニアリングの合理化問題について検討する。
本稿では,REプロセス開始までの2つの基本的なISA特性,すなわちエンディアンネスの同定と,命令幅が固定か可変かの判定に焦点をあてる。
我々は,信号処理アプリケーションで一般的に用いられている,エンディアンス検出のためのBigramベースの特徴と自己相関関数を用いて,固定幅と可変幅の命令サイズを区別する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We study the problem of streamlining reverse engineering (RE) of binary programs from unknown instruction set architectures (ISA). We focus on two fundamental ISA characteristics to beginning the RE process: identification of endianness and whether the instruction width is a fixed or variable. For ISAs with a fixed instruction width, we also present methods for estimating the width. In addition to advancing research in software RE, our work can also be seen as a first step in hardware reverse engineering, because endianness and instruction format describe intrinsic characteristics of the underlying ISA. We detail our efforts at feature engineering and perform experiments using a variety of machine learning models on two datasets of architectures using Leave-One-Group-Out-Cross-Validation to simulate conditions where the tested ISA is unknown during model training. We use bigram-based features for endianness detection and the autocorrelation function, commonly used in signal processing applications, for differentiation between fixed- and variable-width instruction sizes. A collection of classifiers from the machine learning library scikit-learn are used in the experiments to research these features. Initial results are promising, with accuracy of endianness detection at 99.4%, fixed- versus variable-width instruction size at 86.0%, and detection of fixed instruction sizes at 88.0%.
- Abstract(参考訳): 本稿では、未知の命令セットアーキテクチャ(ISA)からバイナリプログラムのリバースエンジニアリング(RE)を合理化する問題について検討する。
本稿では,REプロセス開始までの2つの基本的なISA特性,すなわちエンディアンネスの同定と,命令幅が固定か可変かの判定に焦点をあてる。
命令幅が固定されたISAに対しては,その幅を推定する手法も提案する。
ソフトウェアREの研究の進展に加えて,本研究はハードウェアリバースエンジニアリングの第一歩と見ることもできる。
モデルトレーニング中にテストされたISAが不明な条件をシミュレートするために,Leave-One-Group-Out-Cross-Validationを用いて,アーキテクチャの2つのデータセット上でさまざまな機械学習モデルを用いて,機能エンジニアリングと実験を行った。
我々は,信号処理アプリケーションで一般的に用いられている,エンディアンス検出のためのBigramベースの特徴と自己相関関数を用いて,固定幅と可変幅の命令サイズを区別する。
これらの特徴を研究するために、機械学習ライブラリScikit-Lernからの分類器のコレクションが実験で使用されている。
初期結果は99.4%、固定幅と可変幅の命令サイズは86.0%、固定命令サイズは88.0%である。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models [11.77848664657788]
命令のチューニングは、モデルが新しい知識や能力を得るのではなく、特定のタスク形式に適合するプロセスであることを示す。
この制限は, タスク固有の特徴と異なる, 命令チューニング中に学習した偏りのある特徴に起因していると考えられる。
我々は,新たなデータ合成手法であるDELIAを用いて,命令チューニングにおけるバイアスのある特徴を理想的な特徴の近似に変換する。
論文 参考訳(メタデータ) (2024-08-19T17:56:06Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery [2.022692275087205]
クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
論文 参考訳(メタデータ) (2024-04-29T18:09:28Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。
我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文 参考訳(メタデータ) (2022-10-04T04:59:36Z) - Instruction Induction: From Few Examples to Natural Language Task
Descriptions [55.139554327372934]
実例に適合する自然言語命令を生成するように促すことで,言語モデルがいくつかの実演から基礎となるタスクを明示的に推論できることを示す。
InstructGPTは65.7%の人的パフォーマンスを達成するが、オリジナルのGPT-3モデルは9.8%にしか達しない。
論文 参考訳(メタデータ) (2022-05-22T09:22:37Z) - A Natural Language Processing Approach for Instruction Set Architecture
Identification [6.495883501989546]
符号化されたバイナリの文字レベルの特徴を導入し、各ISA固有のきめ細かいビットパターンを識別する。
提案手法は,バイト・ヒストグラムとバイト・パターン・シグネチャに基づく最先端特徴よりも8%高い精度が得られる。
論文 参考訳(メタデータ) (2022-04-13T19:45:06Z) - A Functional Perspective on Learning Symmetric Functions with Neural
Networks [48.80300074254758]
本研究では,測定値に基づいて定義されたニューラルネットワークの学習と表現について検討する。
正規化の異なる選択の下で近似と一般化境界を確立する。
得られたモデルは効率よく学習でき、入力サイズにまたがる一般化保証を享受できる。
論文 参考訳(メタデータ) (2020-08-16T16:34:33Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。