論文の概要: Trex: Learning Execution Semantics from Micro-Traces for Binary
Similarity
- arxiv url: http://arxiv.org/abs/2012.08680v3
- Date: Mon, 26 Apr 2021 22:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:43:38.020181
- Title: Trex: Learning Execution Semantics from Micro-Traces for Binary
Similarity
- Title(参考訳): Trex: バイナリ類似性のためのマイクロトレースからの実行セマンティック学習
- Authors: Kexin Pei, Zhou Xuan, Junfeng Yang, Suman Jana, Baishakhi Ray
- Abstract要約: 関数のマイクロトレースから実行セマンティクスを明示的に学習するためのトランスファーラーニングベースのフレームワークを提案する。
次に、マイクロトレースから実行セマンティクスを学ぶための新しいニューラルアーキテクチャを開発する。
私達は13の普及したソフトウェア プロジェクトからの1,472,066ファンクション バイナリのTrexを評価します。
- 参考スコア(独自算出の注目度): 28.725686235670402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting semantically similar functions -- a crucial analysis capability
with broad real-world security usages including vulnerability detection,
malware lineage, and forensics -- requires understanding function behaviors and
intentions. This task is challenging as semantically similar functions can be
implemented differently, run on different architectures, and compiled with
diverse compiler optimizations or obfuscations. Most existing approaches match
functions based on syntactic features without understanding the functions'
execution semantics.
We present Trex, a transfer-learning-based framework, to automate learning
execution semantics explicitly from functions' micro-traces and transfer the
learned knowledge to match semantically similar functions. Our key insight is
that these traces can be used to teach an ML model the execution semantics of
different sequences of instructions. We thus train the model to learn execution
semantics from the functions' micro-traces, without any manual labeling effort.
We then develop a novel neural architecture to learn execution semantics from
micro-traces, and we finetune the pretrained model to match semantically
similar functions.
We evaluate Trex on 1,472,066 function binaries from 13 popular software
projects. These functions are from different architectures and compiled with
various optimizations and obfuscations. Trex outperforms the state-of-the-art
systems by 7.8%, 7.2%, and 14.3% in cross-architecture, optimization, and
obfuscation function matching, respectively. Ablation studies show that the
pretraining significantly boosts the function matching performance,
underscoring the importance of learning execution semantics.
- Abstract(参考訳): セマンティックに類似した関数の検出 – 脆弱性検出、マルウェアの系統、法医学など、幅広い現実世界のセキュリティ使用に関する重要な分析機能 – には、関数の動作と意図を理解する必要がある。
セマンティクス的に類似した関数は異なるアーキテクチャ上で実行され、様々なコンパイラ最適化や難読化でコンパイルされるため、このタスクは困難である。
既存のアプローチのほとんどは、関数の実行セマンティクスを理解せずに、構文的特徴に基づいた関数にマッチする。
本稿では、関数のマイクロトレースから学習実行セマンティクスを明示的に自動化し、学習知識を意味論的に類似した関数に変換するトランスファーラーニングベースのフレームワークであるTrexを提案する。
私たちの重要な洞察は、これらのトレースを使用して、異なる命令シーケンスの実行セマンティクスをMLモデルに教えることができることです。
したがって、手作業でラベルを付けることなく、関数のマイクロトレースから実行セマンティクスを学ぶようにモデルをトレーニングします。
次に、マイクロトレースから実行セマンティクスを学習する新しいニューラルアーキテクチャを開発し、トレーニング済みモデルにセマンティクス的に類似した機能を加える。
13のソフトウェアプロジェクトから1,472,066個の関数バイナリをトレックスで評価した。
これらの関数は異なるアーキテクチャからなり、様々な最適化と難読化でコンパイルされる。
Trexは、アーキテクチャ、最適化、難読化関数マッチングにおいて、それぞれ7.8%、7.2%、14.3%で最先端システムを上回っている。
アブレーション研究では、事前学習が機能マッチング性能を大幅に向上させ、学習実行セマンティクスの重要性を強調している。
関連論文リスト
- Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning [10.668991471782618]
投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
論文 参考訳(メタデータ) (2024-05-15T06:01:40Z) - Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。
以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文 参考訳(メタデータ) (2024-01-11T08:42:08Z) - Simple Semantic-Aided Few-Shot Learning [2.8686437689115354]
限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題として際立っている。
セマンティック進化(Semantic Evolution)と呼ばれる,高品質なセマンティックスを生成する自動手法を設計する。
セマンティックアライメントネットワーク(Semantic Alignment Network)と呼ばれる単純な2層ネットワークを用いて,セマンティックや視覚的特徴を堅牢なクラスプロトタイプに変換する。
論文 参考訳(メタデータ) (2023-11-30T15:57:34Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - FASER: Binary Code Similarity Search through the use of Intermediate
Representations [0.8594140167290099]
クロスアーキテクチャバイナリコード類似性検索は、多くの研究で研究されている。
本稿では,Function as a String Encoded Representation (FASER)を提案する。
論文 参考訳(メタデータ) (2023-10-05T15:36:35Z) - The Devil is in the Details: On Models and Training Regimes for Few-Shot
Intent Classification [81.60168035505039]
Few-shot Classification (FSIC) は、モジュラータスク指向の対話システムにおいて重要な課題の1つである。
クロスエンコーダアーキテクチャとエピソードメタラーニングがFSICの最高の性能をもたらすことを示す。
本研究は,FSICにおける最先端研究の実施の道筋をたどるものである。
論文 参考訳(メタデータ) (2022-10-12T17:37:54Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Unraveling Meta-Learning: Understanding Feature Representations for
Few-Shot Tasks [55.66438591090072]
メタラーニングの基礎となる力学と、メタラーニングを用いて訓練されたモデルと古典的に訓練されたモデルの違いをよりよく理解する。
数ショット分類のための標準訓練ルーチンの性能を高める正則化器を開発した。
論文 参考訳(メタデータ) (2020-02-17T03:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。