論文の概要: Fun2Vec:a Contrastive Learning Framework of Function-level
Representation for Binary
- arxiv url: http://arxiv.org/abs/2209.02442v1
- Date: Tue, 6 Sep 2022 12:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:27:16.739113
- Title: Fun2Vec:a Contrastive Learning Framework of Function-level
Representation for Binary
- Title(参考訳): Fun2Vec:バイナリの関数レベルの表現の対比学習フレームワーク
- Authors: Sun RuiJin, Guo ShiZe, Guo JinHong, Sun Meng, Pan ZhiSong
- Abstract要約: Fun2Vecは、関数レベルのバイナリ表現の対照的な学習フレームワークである。
我々は教師なしの学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
実験結果から,本手法は精度において最先端の手法を超越し,数ショット設定において大きな優位性を有することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function-level binary code similarity detection is essential in the field of
cyberspace security. It helps us find bugs and detect patent infringements in
released software and plays a key role in the prevention of supply chain
attacks. A practical embedding learning framework relies on the robustness of
vector representation system of assembly code and the accuracy of the
annotation of function pairs. Supervised learning based methods are
traditionally emploied. But annotating different function pairs with accurate
labels is very difficult. These supervised learning methods are easily
overtrained and suffer from vector robustness issues. To mitigate these
problems, we propose Fun2Vec: a contrastive learning framework of
function-level representation for binary. We take an unsupervised learning
approach and formulate the binary code similarity detection as instance
discrimination. Fun2Vec works directly on disassembled binary functions, and
could be implemented with any encoder. It does not require manual labeled
similar or dissimilar information. We use the compiler optimization options and
code obfuscation techniques to generate augmented data. Our experimental
results demonstrate that our method surpasses the state-of-the-art in accuracy
and have great advantage in few-shot settings.
- Abstract(参考訳): サイバースペースセキュリティの分野では,関数レベルのバイナリコードの類似性検出が不可欠である。
これは、リリースソフトウェアにおけるバグの発見と特許侵害の検出に役立ち、サプライチェーン攻撃の防止に重要な役割を果たします。
実践的な埋め込み学習フレームワークは、アセンブリコードのベクトル表現システムの堅牢性と関数ペアのアノテーションの精度に依存している。
教師付き学習ベースの手法は伝統的に導入されている。
しかし、異なる関数ペアに正確なラベルを付けることは非常に難しい。
これらの教師付き学習法は、容易にオーバートレーニングされ、ベクトル堅牢性の問題に悩まされる。
これらの問題を緩和するため,我々は関数レベルのバイナリ表現の対比学習フレームワークfun2vecを提案する。
教師なしの学習アプローチを採用し,二項コード類似性検出をインスタンス識別として定式化する。
Fun2Vecは分解されたバイナリ関数で直接動作し、任意のエンコーダで実装できる。
類似または類似の情報を手動でラベル付けする必要はない。
コンパイラ最適化オプションとコード難読化技術を使用して拡張データを生成します。
実験の結果,本手法は最先端の精度を上回っており,短時間設定では大きなアドバンテージを持つことがわかった。
関連論文リスト
- CLAP: Learning Transferable Binary Code Representations with Natural
Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。
中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。
私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文 参考訳(メタデータ) (2024-02-26T13:49:52Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - The Devil is in the Details: On Models and Training Regimes for Few-Shot
Intent Classification [81.60168035505039]
Few-shot Classification (FSIC) は、モジュラータスク指向の対話システムにおいて重要な課題の1つである。
クロスエンコーダアーキテクチャとエピソードメタラーニングがFSICの最高の性能をもたらすことを示す。
本研究は,FSICにおける最先端研究の実施の道筋をたどるものである。
論文 参考訳(メタデータ) (2022-10-12T17:37:54Z) - NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。
我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文 参考訳(メタデータ) (2022-10-04T04:59:36Z) - An Information-Theoretic and Contrastive Learning-based Approach for
Identifying Code Statements Causing Software Vulnerability [23.151478493811652]
脆弱性ラベリングは現在、機械学習ツールの助けを借りて、専門家によって関数またはプログラムレベルで実施されている。
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - FuncFooler: A Practical Black-box Attack Against Learning-based Binary
Code Similarity Detection Methods [13.694322857909166]
本稿では,FuncFoolerという,効率的かつブラックボックスなコード生成アルゴリズムを設計する。
FuncFoolerは、プログラムの制御フローグラフ(CFG)を変更せず、同じ意味を保つために、敵のコードを制限する。
経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルにうまく対応できます。
論文 参考訳(メタデータ) (2022-08-26T01:58:26Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。