論文の概要: SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings
- arxiv url: http://arxiv.org/abs/2209.02442v2
- Date: Tue, 26 Dec 2023 17:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:32:01.857839
- Title: SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings
- Title(参考訳): SimCLF:関数レベルのバイナリ埋め込みのためのシンプルなコントラスト学習フレームワーク
- Authors: Sun RuiJin, Guo Shize, Guo Jinhong, Li Wei, Zhan Dazhi, Sun Meng, Pan
Zhisong
- Abstract要約: 関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
- 参考スコア(独自算出の注目度): 2.1222884030559315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function-level binary code similarity detection is a crucial aspect of
cybersecurity. It enables the detection of bugs and patent infringements in
released software and plays a pivotal role in preventing supply chain attacks.
A practical embedding learning framework relies on the robustness of the
assembly code representation and the accuracy of function-pair annotation,
which is traditionally accomplished using supervised learning-based frameworks.
However, annotating different function pairs with accurate labels poses
considerable challenges. These supervised learning methods can be easily
overtrained and suffer from representation robustness problems. To address
these challenges, we propose SimCLF: A Simple Contrastive Learning Framework
for Function-level Binary Embeddings. We take an unsupervised learning approach
and formulate binary code similarity detection as instance discrimination.
SimCLF directly operates on disassembled binary functions and could be
implemented with any encoder. It does not require manually annotated
information but only augmented data. Augmented data is generated using compiler
optimization options and code obfuscation techniques. The experimental results
demonstrate that SimCLF surpasses the state-of-the-art in accuracy and has a
significant advantage in few-shot settings.
- Abstract(参考訳): 機能レベルのバイナリコード類似性検出は、サイバーセキュリティの重要な側面である。
リリースソフトウェアにおけるバグの検出と特許侵害を可能にし、サプライチェーン攻撃の防止に重要な役割を果たしている。
実用的な組込み学習フレームワークは、アセンブリコード表現の堅牢性と関数ペアアノテーションの正確性に依存している。
しかし、異なる関数対と正確なラベルをアノテートすることは大きな課題となる。
これらの教師付き学習方法は、容易にオーバートレーニングされ、表現の堅牢性問題に苦しむことができる。
これらの課題に対処するために,関数レベルのバイナリ埋め込みのためのシンプルなコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
手動でアノテートした情報ではなく、拡張データのみを必要とする。
拡張データはコンパイラ最適化オプションとコードの難読化技術を使って生成される。
実験の結果、SimCLFは最先端の精度を超越し、数ショット設定において大きな優位性を持つことが示された。
関連論文リスト
- FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CLAP: Learning Transferable Binary Code Representations with Natural
Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。
中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。
私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文 参考訳(メタデータ) (2024-02-26T13:49:52Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - The Devil is in the Details: On Models and Training Regimes for Few-Shot
Intent Classification [81.60168035505039]
Few-shot Classification (FSIC) は、モジュラータスク指向の対話システムにおいて重要な課題の1つである。
クロスエンコーダアーキテクチャとエピソードメタラーニングがFSICの最高の性能をもたらすことを示す。
本研究は,FSICにおける最先端研究の実施の道筋をたどるものである。
論文 参考訳(メタデータ) (2022-10-12T17:37:54Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - FuncFooler: A Practical Black-box Attack Against Learning-based Binary
Code Similarity Detection Methods [13.694322857909166]
本稿では,FuncFoolerという,効率的かつブラックボックスなコード生成アルゴリズムを設計する。
FuncFoolerは、プログラムの制御フローグラフ(CFG)を変更せず、同じ意味を保つために、敵のコードを制限する。
経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルにうまく対応できます。
論文 参考訳(メタデータ) (2022-08-26T01:58:26Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。