論文の概要: EXHIB: A Benchmark for Realistic and Diverse Evaluation of Function Similarity in the Wild
- arxiv url: http://arxiv.org/abs/2604.01554v1
- Date: Thu, 02 Apr 2026 02:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.201329
- Title: EXHIB: A Benchmark for Realistic and Diverse Evaluation of Function Similarity in the Wild
- Title(参考訳): EXHIB:野生における関数類似性の現実的および多元的評価のためのベンチマーク
- Authors: Yiming Fan, Jun Yeon Won, Ding Zhu, Melih Sirlanci, Mahdi Khalili, Carter Yagemann,
- Abstract要約: 野生から収集した5つの現実的なデータセットからなるベンチマークであるEXHIBを紹介する。
EXHIB上で複数のBFSDパラダイムにまたがる9つの代表モデルを評価する。
その結果、低レベルと中レベルのバイナリの変動に対する頑健さは、高レベルのセマンティックな違いに一般化されないことがわかった。
- 参考スコア(独自算出の注目度): 9.69274678999646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary Function Similarity Detection (BFSD) is a core problem in software security, supporting tasks such as vulnerability analysis, malware classification, and patch provenance. In the past few decades, numerous models and tools have been developed for this application; however, due to the lack of a comprehensive universal benchmark in this field, researchers have struggled to compare different models effectively. Existing datasets are limited in scope, often focusing on a narrow set of transformations or types of binaries, and fail to reflect the full diversity of real-world applications. We introduce EXHIB, a benchmark comprising five realistic datasets collected from the wild, each highlighting a distinct aspect of the BFSD problem space. We evaluate 9 representative models spanning multiple BFSD paradigms on EXHIB and observe performance degradations of up to 30% on firmware and semantic datasets compared to standard settings, revealing substantial generalization gaps. Our results show that robustness to low- and mid-level binary variations does not generalize to high-level semantic differences, underscoring a critical blind spot in current BFSD evaluation practices.
- Abstract(参考訳): バイナリ関数類似性検出(BFSD)は、脆弱性分析、マルウェア分類、パッチ証明などのタスクをサポートするソフトウェアセキュリティにおける中核的な問題である。
過去数十年間、このアプリケーションのために多くのモデルやツールが開発されてきたが、この分野に包括的な普遍的なベンチマークが欠如しているため、研究者は異なるモデルを効果的に比較することに苦労してきた。
既存のデータセットはスコープに限られており、多くの場合、限定された変換やバイナリのタイプに重点を置いており、現実世界のアプリケーションの完全な多様性を反映していない。
野生から収集した5つの現実的なデータセットからなるベンチマークであるEXHIBを紹介し、それぞれがBFSD問題空間の異なる側面を強調している。
我々は、EXHIB上の複数のBFSDパラダイムにまたがる9つの代表モデルを評価し、標準的な設定と比較してファームウェアとセマンティックデータセットの性能劣化を最大30%観察し、かなりの一般化ギャップを明らかにした。
以上の結果から,低レベル・中レベルのバイナリ変動に対するロバスト性は,高レベルのセマンティックな違いに一般化せず,現在のBFSD評価実践において重要な盲点となっていることが示唆された。
関連論文リスト
- Real-time Appearance-based Gaze Estimation for Open Domains [15.195617974731766]
本稿では,人手による付加的なデータを必要としない,高機能なAGEフレームワークを提案する。
異方性データセット間ラベル偏差の影響を軽減するため、マルチタスク学習問題として視線回帰を再構成する。
我々のMobileNetベースの軽量モデル一般化は、最先端(SOTA)のUniGaze-Hと競合する性能を実現する。
論文 参考訳(メタデータ) (2026-03-27T19:33:18Z) - Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.83702639978469]
Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。
その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。
この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
論文 参考訳(メタデータ) (2025-11-01T12:58:02Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - UniFault: A Fault Diagnosis Foundation Model from Bearing Data [23.797786758616223]
既存の機械故障診断モデルは、多種多様なデータセットにまたがる限定的な一般化を伴う操作特化である。
障害診断のための基盤モデルUniFaultを導入し,これらの問題に体系的に対処する。
UniFaultは、さまざまなFDデータセットにまたがる690万以上のサンプルに事前トレーニングされている。
論文 参考訳(メタデータ) (2025-04-02T05:34:27Z) - Deep Incomplete Multi-view Clustering with Distribution Dual-Consistency Recovery Guidance [69.58609684008964]
本稿では,distriBution dUal-Consistency Recovery Guidanceを用いた不完全なマルチビュークラスタリング手法であるBURGを提案する。
我々は,各サンプルを別カテゴリとして扱い,欠落したビューの分布空間を予測するために,クロスビュー配信を行う。
信頼性の高いカテゴリ情報の欠如を補うために,隣り合った整合性によって案内されるビュー内アライメントと,プロトタイプ的な整合性によって案内されるクロスビューアライメントを含む二重整合性ガイド付きリカバリ戦略を設計する。
論文 参考訳(メタデータ) (2025-03-14T02:27:45Z) - Weak-to-Strong Diffusion with Reflection [56.39451539396458]
Weak-to-Strong Diffusion (W2SD)を提案する。
W2SDは実データ分布の領域へのサンプリング軌道に沿って潜伏変数を操る。
広範囲な実験により、W2SDは人間の嗜好、美的品質、即効性を改善することが示されている。
論文 参考訳(メタデータ) (2025-02-01T16:00:08Z) - Understanding the AI-powered Binary Code Similarity Detection [41.39226562321616]
AIによるバイナリコード類似度検出(BinSD)は、プログラム分析に広く応用されている。
BinSD問題がどの程度解決されたか、特に現実世界のアプリケーションで定量的に理解することは困難である。
本稿では,最先端AIを用いたBinSD手法の体系的評価を行う。
論文 参考訳(メタデータ) (2024-10-10T02:13:01Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。