論文の概要: UniASM: Binary Code Similarity Detection without Fine-tuning
- arxiv url: http://arxiv.org/abs/2211.01144v1
- Date: Fri, 28 Oct 2022 14:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 14:55:44.538953
- Title: UniASM: Binary Code Similarity Detection without Fine-tuning
- Title(参考訳): UniASM: 微調整なしでバイナリコードの類似性検出
- Authors: Yeming Gu, Hui Shu and Fan Hu
- Abstract要約: バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
UniASMは、評価データセットに対する最先端(SOTA)アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 0.8271859911016718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary code similarity detection (BCSD) is widely used in various binary
analysis tasks such as vulnerability search, malware detection, clone
detection, and patch analysis. Recent studies have shown that the
learning-based binary code embedding models perform better than the traditional
feature-based approaches. In this paper, we proposed a novel transformer-based
binary code embedding model, named UniASM, to learn representations of the
binary functions. We designed two new training tasks to make the spatial
distribution of the generated vectors more uniform, which can be used directly
in BCSD without any fine-tuning. In addition, we proposed a new tokenization
approach for binary functions, increasing the token's semantic information
while mitigating the out-of-vocabulary (OOV) problem. The experimental results
show that UniASM outperforms state-of-the-art (SOTA) approaches on the
evaluation dataset. We achieved the average scores of recall@1 on
cross-compilers, cross-optimization-levels and cross-obfuscations are 0.72,
0.63, and 0.77, which is higher than existing SOTA baselines. In a real-world
task of known vulnerability searching, UniASM outperforms all the current
baselines.
- Abstract(参考訳): bcsd(binary code similarity detection)は,脆弱性探索やマルウェア検出,クローン検出,パッチ解析など,さまざまなバイナリ解析タスクで広く使用されている。
近年の研究では、学習ベースのバイナリコード埋め込みモデルが従来の機能ベースアプローチよりも優れていることが示されている。
本論文では,バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
生成したベクトルの空間分布をより均一にするため,我々は2つの新しい訓練タスクを設計した。
さらに,二項関数に対する新しいトークン化手法を提案し,語彙外問題(OOV)を緩和しながらトークンの意味情報を増加させた。
実験の結果,UniASMは評価データセットにおける最先端(SOTA)アプローチよりも優れていた。
クロスコンパイラ,クロス最適化レベル,クロスファンクションの平均スコアは0.72,0.63,0.77であり,既存のSOTAベースラインよりも高い。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
関連論文リスト
- Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Contrastive variational information bottleneck for aspect-based
sentiment analysis [36.83876224466177]
CVIB(Contrastive Variational Information Bottleneck)フレームワークを用いて,アスペクトベース感情分析(ABSA)の素早い相関性を低減することを提案する。
提案するCVIBフレームワークは,元のネットワークと自走ネットワークで構成され,これら2つのネットワークは,コントラスト学習によって同時に最適化される。
提案手法は, 全体的な予測性能, 堅牢性, 一般化の点で, 強力な競合相手よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T02:52:37Z) - Connective Reconstruction-based Novelty Detection [3.7706789983985303]
ディープラーニングにより、説明できないサンプルを含む実世界のデータを分析できるようになった。
GANベースのアプローチは、分散フィッティングを行う能力のため、この問題に対処するために広く利用されている。
本稿では,GANモデルの制約を補うために複雑化を伴わない,シンプルで効率的な再構成手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T11:09:39Z) - Network Binarization via Contrastive Learning [16.274341164897827]
バイナリニューラルネットワーク(BNN)を訓練しながら、新しいコントラスト学習フレームワークを構築する。
MIはバイナリとFPのアクティベーション間で共有される情報を計測する指標として導入された。
以上の結果から,本手法は既存の最先端バイナライズ手法の重ね合わせモジュールとして実装可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-06T21:04:53Z) - MIO : Mutual Information Optimization using Self-Supervised Binary
Contrastive Learning [19.5917119072985]
対が正かどうかを予測するために、比較学習を二項分類問題にモデル化する。
提案手法は,STL-10,CIFAR-10,CIFAR-100などのベンチマークデータセットにおいて,最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-11-24T17:51:29Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。