論文の概要: ReSIM: Re-ranking Binary Similarity Embeddings to Improve Function Search Performance
- arxiv url: http://arxiv.org/abs/2602.09548v1
- Date: Tue, 10 Feb 2026 08:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.461673
- Title: ReSIM: Re-ranking Binary Similarity Embeddings to Improve Function Search Performance
- Title(参考訳): ReSIM: 関数検索性能を改善するためのバイナリ類似性埋め込みの再分類
- Authors: Gianluca Capozzi, Anna Paola Giancaspro, Fabio Petroni, Leonardo Querzoni, Giuseppe Antonio Di Luna,
- Abstract要約: 本稿では,ニューラルリランカを用いた埋め込み型検索を補完する新しい機能検索システムであるReSIMを紹介する。
2つのベンチマークデータセット上に7つの埋め込みモデルにまたがってReSIMを評価し、探索効率を一貫した改善を実証した。
- 参考スコア(独自算出の注目度): 6.94939106765873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Binary Function Similarity (BFS), the problem of determining whether two binary functions originate from the same source code, has been extensively studied in recent research across security, software engineering, and machine learning communities. This interest arises from its central role in developing vulnerability detection systems, copyright infringement analysis, and malware phylogeny tools. Nearly all binary function similarity systems embed assembly functions into real-valued vectors, where similar functions map to points that lie close to each other in the metric space. These embeddings enable function search: a query function is embedded and compared against a database of candidate embeddings to retrieve the most similar matches. Despite their effectiveness, such systems rely on bi-encoder architectures that embed functions independently, limiting their ability to capture cross-function relationships and similarities. To address this limitation, we introduce ReSIM, a novel and enhanced function search system that complements embedding-based search with a neural re-ranker. Unlike traditional embedding models, our reranking module jointly processes query-candidate pairs to compute ranking scores based on their mutual representation, allowing for more accurate similarity assessment. By re-ranking the top results from embedding-based retrieval, ReSIM leverages fine-grained relation information that bi-encoders cannot capture. We evaluate ReSIM across seven embedding models on two benchmark datasets, demonstrating consistent improvements in search effectiveness, with average gains of 21.7% in terms of nDCG and 27.8% in terms of Recall.
- Abstract(参考訳): バイナリ関数類似性(BFS)は、2つのバイナリ関数が同じソースコードに由来するかどうかを決定する問題であり、近年、セキュリティ、ソフトウェアエンジニアリング、機械学習コミュニティで広く研究されている。
この関心は、脆弱性検出システム、著作権侵害分析、マルウェア系統解析ツールの開発における中心的な役割から生じている。
ほぼ全てのバイナリ関数類似系はアセンブリ関数を実数値ベクトルに埋め込むが、類似関数は計量空間内の互いに近くにある点に写像する。
クエリ関数を埋め込み、候補埋め込みのデータベースと比較して、最もよく似たマッチを検索する。
それらの効果にもかかわらず、これらのシステムは関数を個別に埋め込み、クロスファンクショナルな関係や類似性を捉える能力を制限するバイエンコーダアーキテクチャに依存している。
この制限に対処するため,ニューラルリランカを用いた埋め込み型検索を補完する新しい機能検索システムであるReSIMを導入する。
従来の埋め込みモデルとは異なり、リランクモジュールはクエリ候補ペアを共同で処理し、相互表現に基づいてランキングスコアを計算し、より正確な類似性評価を可能にする。
ReSIMは、埋め込みベースの検索の上位結果を再ランク付けすることで、バイエンコーダが取得できないきめ細かい関係情報を活用する。
2つのベンチマークデータセット上の7つの埋め込みモデル間でReSIMを評価し、検索効率が一貫した改善を示し、nDCGでは平均21.7%、リコールでは27.8%向上した。
関連論文リスト
- Cross-modal Retrieval Models for Stripped Binary Analysis [62.89251403093734]
BinSeekは、取り除かれたバイナリコード分析のための最初の2段階のクロスモーダル検索フレームワークである。
BinSeekEmbeddingは、バイナリコードのセマンティックな関連性を学ぶために、大規模なデータセットでトレーニングされている。
BinSeek-Rerankerは、コンテキスト拡張による記述に対する候補コードの関連性を慎重に判断することを学ぶ。
論文 参考訳(メタデータ) (2025-12-11T07:58:10Z) - SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.60045548116584]
SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。
SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
論文 参考訳(メタデータ) (2024-12-09T04:56:43Z) - Is Function Similarity Over-Engineered? Building a Benchmark [37.33020176141435]
我々は、現実世界のユースケースをよりよく反映した高品質なデータセットとテストからなるバイナリ関数類似性検出のための新しいベンチマークを構築します。
我々のベンチマークでは、関数の生のバイトだけを見て、分解やその他の前処理を必要としない新しい単純なベースラインが、複数の設定で最先端のパフォーマンスを達成できることが判明した。
論文 参考訳(メタデータ) (2024-10-30T03:59:46Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。
以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文 参考訳(メタデータ) (2024-01-11T08:42:08Z) - Asteria-Pro: Enhancing Deep-Learning Based Binary Code Similarity
Detection by Incorporating Domain Knowledge [8.93208472340743]
本稿では,ドメイン知識に基づく事前フィルタリングと再分類モジュールを組み込んだ新しいディープラーニング強化アーキテクチャを提案する。
Asteria-Proは、高い精度で1,482の脆弱な関数を91.65%検出する。
論文 参考訳(メタデータ) (2023-01-02T03:16:26Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - BCFNet: A Balanced Collaborative Filtering Network with Attention
Mechanism [106.43103176833371]
協調フィルタリング(CF)ベースの推奨方法が広く研究されている。
BCFNet(Balanced Collaborative Filtering Network)という新しい推薦モデルを提案する。
さらに注意機構は、暗黙のフィードバックの中で隠れた情報をよりよく捉え、ニューラルネットワークの学習能力を強化するように設計されている。
論文 参考訳(メタデータ) (2021-03-10T14:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。