論文の概要: FASER: Binary Code Similarity Search through the use of Intermediate
Representations
- arxiv url: http://arxiv.org/abs/2310.03605v3
- Date: Wed, 29 Nov 2023 14:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:40:03.341030
- Title: FASER: Binary Code Similarity Search through the use of Intermediate
Representations
- Title(参考訳): faser: 中間表現を用いたバイナリコードの類似性検索
- Authors: Josh Collyer, Tim Watson and Iain Phillips
- Abstract要約: クロスアーキテクチャバイナリコード類似性検索は、多くの研究で研究されている。
本稿では,Function as a String Encoded Representation (FASER)を提案する。
- 参考スコア(独自算出の注目度): 0.8594140167290099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to identify functions of interest in cross-architecture software
is useful whether you are analysing for malware, securing the software supply
chain or conducting vulnerability research. Cross-Architecture Binary Code
Similarity Search has been explored in numerous studies and has used a wide
range of different data sources to achieve its goals. The data sources
typically used draw on common structures derived from binaries such as function
control flow graphs or binary level call graphs, the output of the disassembly
process or the outputs of a dynamic analysis approach. One data source which
has received less attention is binary intermediate representations. Binary
Intermediate representations possess two interesting properties: they are cross
architecture by their very nature and encode the semantics of a function
explicitly to support downstream usage. Within this paper we propose Function
as a String Encoded Representation (FASER) which combines long document
transformers with the use of intermediate representations to create a model
capable of cross architecture function search without the need for manual
feature engineering, pre-training or a dynamic analysis step. We compare our
approach against a series of baseline approaches for two tasks; A general
function search task and a targeted vulnerability search task. Our approach
demonstrates strong performance across both tasks, performing better than all
baseline approaches.
- Abstract(参考訳): クロスアーキテクチャソフトウェアに関心のある機能を特定できることは、マルウェアの分析、ソフトウェアサプライチェーンの確保、脆弱性調査の実施などにおいて有用である。
クロスアーキテクチャ バイナリコード類似性検索は、多くの研究で研究され、その目的を達成するために様々なデータソースを使用してきた。
データソースは通常、関数制御フローグラフやバイナリレベルのコールグラフ、分解プロセスの出力、動的解析アプローチの出力などのバイナリから派生した共通構造を描画する。
あまり注目されていないデータソースはバイナリ中間表現である。
バイナリ中間表現は2つの興味深い特性を持っている:それらは本質的にクロスアーキテクチャであり、下流の使用をサポートするために明示的に関数の意味をエンコードする。
本稿では,長い文書トランスフォーマーと中間表現を用いて,手作業による特徴処理や事前学習,動的解析のステップを必要とせずに,クロスアーキテクチャ機能探索が可能なモデルを作成する,文字列符号化表現(faser)としての関数を提案する。
提案手法は,汎用関数探索タスクとターゲット脆弱性探索タスクという,2つのタスクに対する一連のベースラインアプローチと比較した。
我々のアプローチは、両方のタスクにまたがって強力なパフォーマンスを示し、すべてのベースラインアプローチよりも優れたパフォーマンスを示します。
関連論文リスト
- Is Function Similarity Over-Engineered? Building a Benchmark [37.33020176141435]
我々は、現実世界のユースケースをよりよく反映した高品質なデータセットとテストからなるバイナリ関数類似性検出のための新しいベンチマークを構築します。
我々のベンチマークでは、関数の生のバイトだけを見て、分解やその他の前処理を必要としない新しい単純なベースラインが、複数の設定で最先端のパフォーマンスを達成できることが判明した。
論文 参考訳(メタデータ) (2024-10-30T03:59:46Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Know Your Neighborhood: General and Zero-Shot Capable Binary Function Search Powered by Call Graphlets [0.7646713951724013]
本稿では,コールグラフレットと呼ばれる新しいグラフデータ表現を組み合わせた,新しいグラフニューラルネットワークアーキテクチャを提案する。
特殊なグラフニューラルネットワークモデルは、このグラフ表現で操作するように設計され、セマンティックコードの類似性を符号化する特徴ベクトルにマッピングすることを学ぶ。
実験により,コールグラフレットと新しいグラフニューラルネットワークアーキテクチャの組み合わせにより,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-06-02T18:26:50Z) - TRIAD: Automated Traceability Recovery based on Biterm-enhanced
Deduction of Transitive Links among Artifacts [53.92293118080274]
トレーサビリティにより、ステークホルダは、ソフトウェアライフサイクル全体で導入されたソフトウェアアーティファクト間のトレースリンクを抽出し、理解することができます。
ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。
論文 参考訳(メタデータ) (2023-12-28T06:44:24Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。