Fugu-MT 論文翻訳(概要): Fun2Vec:a Contrastive Learning Framework of Function-level Representation for Binary

論文の概要: Fun2Vec:a Contrastive Learning Framework of Function-level Representation for Binary

arxiv url: http://arxiv.org/abs/2209.02442v1
Date: Tue, 6 Sep 2022 12:09:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-07 13:27:16.739113
Title: Fun2Vec:a Contrastive Learning Framework of Function-level Representation for Binary
Title（参考訳）: Fun2Vec:バイナリの関数レベルの表現の対比学習フレームワーク
Authors: Sun RuiJin, Guo ShiZe, Guo JinHong, Sun Meng, Pan ZhiSong
Abstract要約: Fun2Vecは、関数レベルのバイナリ表現の対照的な学習フレームワークである。我々は教師なしの学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。実験結果から,本手法は精度において最先端の手法を超越し,数ショット設定において大きな優位性を有することが示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Function-level binary code similarity detection is essential in the field of cyberspace security. It helps us find bugs and detect patent infringements in released software and plays a key role in the prevention of supply chain attacks. A practical embedding learning framework relies on the robustness of vector representation system of assembly code and the accuracy of the annotation of function pairs. Supervised learning based methods are traditionally emploied. But annotating different function pairs with accurate labels is very difficult. These supervised learning methods are easily overtrained and suffer from vector robustness issues. To mitigate these problems, we propose Fun2Vec: a contrastive learning framework of function-level representation for binary. We take an unsupervised learning approach and formulate the binary code similarity detection as instance discrimination. Fun2Vec works directly on disassembled binary functions, and could be implemented with any encoder. It does not require manual labeled similar or dissimilar information. We use the compiler optimization options and code obfuscation techniques to generate augmented data. Our experimental results demonstrate that our method surpasses the state-of-the-art in accuracy and have great advantage in few-shot settings.
Abstract（参考訳）: サイバースペースセキュリティの分野では,関数レベルのバイナリコードの類似性検出が不可欠である。これは、リリースソフトウェアにおけるバグの発見と特許侵害の検出に役立ち、サプライチェーン攻撃の防止に重要な役割を果たします。実践的な埋め込み学習フレームワークは、アセンブリコードのベクトル表現システムの堅牢性と関数ペアのアノテーションの精度に依存している。教師付き学習ベースの手法は伝統的に導入されている。しかし、異なる関数ペアに正確なラベルを付けることは非常に難しい。これらの教師付き学習法は、容易にオーバートレーニングされ、ベクトル堅牢性の問題に悩まされる。これらの問題を緩和するため,我々は関数レベルのバイナリ表現の対比学習フレームワークfun2vecを提案する。教師なしの学習アプローチを採用し,二項コード類似性検出をインスタンス識別として定式化する。 Fun2Vecは分解されたバイナリ関数で直接動作し、任意のエンコーダで実装できる。類似または類似の情報を手動でラベル付けする必要はない。コンパイラ最適化オプションとコード難読化技術を使用して拡張データを生成します。実験の結果,本手法は最先端の精度を上回っており,短時間設定では大きなアドバンテージを持つことがわかった。

関連論文リスト

Disa: Accurate Learning-based Static Disassembly with Attentions [19.40730097748233]
Disaは、マルチヘッド自己アテンション上のスーパーセット命令の情報を使用して、命令の相関関係を学習する、新しい学習ベースの分解アプローチである。 Disaは、関数のエントリポイント識別において、事前のディープラーニングの分解アプローチより優れている。
論文参考訳（メタデータ） (2025-07-09T19:36:57Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。 ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文参考訳（メタデータ） (2025-03-10T12:27:05Z)
On the Role of Pre-trained Embeddings in Binary Code Analysis [7.161446721947512]
事前訓練されたアセンブリコードの埋め込みは、バイナリコード解析タスクを解決するためのゴールドスタンダードになっている。自然言語処理とは対照的に、ラベル情報はバイナリコード解析において多くのタスクにおいて不足しない。我々は,120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
論文参考訳（メタデータ） (2025-02-12T10:50:46Z)
Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。 PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文参考訳（メタデータ） (2024-11-20T04:21:07Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
CLAP: Learning Transferable Binary Code Representations with Natural Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文参考訳（メタデータ） (2024-02-26T13:49:52Z)
TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文参考訳（メタデータ） (2023-11-10T09:05:23Z)
Adversarial Training with Complementary Labels: On the Benefit of Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文参考訳（メタデータ） (2022-11-01T04:26:45Z)
Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文参考訳（メタデータ） (2022-09-20T00:46:20Z)
FuncFooler: A Practical Black-box Attack Against Learning-based Binary Code Similarity Detection Methods [13.694322857909166]
本稿では,FuncFoolerという,効率的かつブラックボックスなコード生成アルゴリズムを設計する。 FuncFoolerは、プログラムの制御フローグラフ(CFG)を変更せず、同じ意味を保つために、敵のコードを制限する。経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルにうまく対応できます。
論文参考訳（メタデータ） (2022-08-26T01:58:26Z)
Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文参考訳（メタデータ） (2021-08-08T16:25:48Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。