論文の概要: Fun2Vec:a Contrastive Learning Framework of Function-level
Representation for Binary
- arxiv url: http://arxiv.org/abs/2209.02442v1
- Date: Tue, 6 Sep 2022 12:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:27:16.739113
- Title: Fun2Vec:a Contrastive Learning Framework of Function-level
Representation for Binary
- Title(参考訳): Fun2Vec:バイナリの関数レベルの表現の対比学習フレームワーク
- Authors: Sun RuiJin, Guo ShiZe, Guo JinHong, Sun Meng, Pan ZhiSong
- Abstract要約: Fun2Vecは、関数レベルのバイナリ表現の対照的な学習フレームワークである。
我々は教師なしの学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
実験結果から,本手法は精度において最先端の手法を超越し,数ショット設定において大きな優位性を有することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function-level binary code similarity detection is essential in the field of
cyberspace security. It helps us find bugs and detect patent infringements in
released software and plays a key role in the prevention of supply chain
attacks. A practical embedding learning framework relies on the robustness of
vector representation system of assembly code and the accuracy of the
annotation of function pairs. Supervised learning based methods are
traditionally emploied. But annotating different function pairs with accurate
labels is very difficult. These supervised learning methods are easily
overtrained and suffer from vector robustness issues. To mitigate these
problems, we propose Fun2Vec: a contrastive learning framework of
function-level representation for binary. We take an unsupervised learning
approach and formulate the binary code similarity detection as instance
discrimination. Fun2Vec works directly on disassembled binary functions, and
could be implemented with any encoder. It does not require manual labeled
similar or dissimilar information. We use the compiler optimization options and
code obfuscation techniques to generate augmented data. Our experimental
results demonstrate that our method surpasses the state-of-the-art in accuracy
and have great advantage in few-shot settings.
- Abstract(参考訳): サイバースペースセキュリティの分野では,関数レベルのバイナリコードの類似性検出が不可欠である。
これは、リリースソフトウェアにおけるバグの発見と特許侵害の検出に役立ち、サプライチェーン攻撃の防止に重要な役割を果たします。
実践的な埋め込み学習フレームワークは、アセンブリコードのベクトル表現システムの堅牢性と関数ペアのアノテーションの精度に依存している。
教師付き学習ベースの手法は伝統的に導入されている。
しかし、異なる関数ペアに正確なラベルを付けることは非常に難しい。
これらの教師付き学習法は、容易にオーバートレーニングされ、ベクトル堅牢性の問題に悩まされる。
これらの問題を緩和するため,我々は関数レベルのバイナリ表現の対比学習フレームワークfun2vecを提案する。
教師なしの学習アプローチを採用し,二項コード類似性検出をインスタンス識別として定式化する。
Fun2Vecは分解されたバイナリ関数で直接動作し、任意のエンコーダで実装できる。
類似または類似の情報を手動でラベル付けする必要はない。
コンパイラ最適化オプションとコード難読化技術を使用して拡張データを生成します。
実験の結果,本手法は最先端の精度を上回っており,短時間設定では大きなアドバンテージを持つことがわかった。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CLAP: Learning Transferable Binary Code Representations with Natural
Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。
中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。
私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文 参考訳(メタデータ) (2024-02-26T13:49:52Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - FuncFooler: A Practical Black-box Attack Against Learning-based Binary
Code Similarity Detection Methods [13.694322857909166]
本稿では,FuncFoolerという,効率的かつブラックボックスなコード生成アルゴリズムを設計する。
FuncFoolerは、プログラムの制御フローグラフ(CFG)を変更せず、同じ意味を保つために、敵のコードを制限する。
経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルにうまく対応できます。
論文 参考訳(メタデータ) (2022-08-26T01:58:26Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。