論文の概要: KEENHash: Hashing Programs into Function-Aware Embeddings for Large-Scale Binary Code Similarity Analysis
- arxiv url: http://arxiv.org/abs/2506.11612v1
- Date: Fri, 13 Jun 2025 09:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.734973
- Title: KEENHash: Hashing Programs into Function-Aware Embeddings for Large-Scale Binary Code Similarity Analysis
- Title(参考訳): KEENHash: 大規模なバイナリコード類似性分析のための関数対応埋め込みにプログラムを移行
- Authors: Zhijie Liu, Qiyi Tang, Sen Nie, Shi Wu, Liang Feng Zhang, Yutian Tang,
- Abstract要約: KEENHashは、バイナリを1つのコンパクトで固定長のプログラム埋め込みに凝縮するハッシュ方式である。
KEENHashは最先端の関数マッチングツールよりも少なくとも215倍高速であることを示す。
5.3億の類似性評価を持つ大規模シナリオでは、KEENHashは395.83秒しかかかりませんが、これらのツールは56日以上かかります。
- 参考スコア(独自算出の注目度): 11.548924493185506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary code similarity analysis (BCSA) is a crucial research area in many fields such as cybersecurity. Specifically, function-level diffing tools are the most widely used in BCSA: they perform function matching one by one for evaluating the similarity between binary programs. However, such methods need a high time complexity, making them unscalable in large-scale scenarios (e.g., 1/n-to-n search). Towards effective and efficient program-level BCSA, we propose KEENHash, a novel hashing approach that hashes binaries into program-level representations through large language model (LLM)-generated function embeddings. KEENHash condenses a binary into one compact and fixed-length program embedding using K-Means and Feature Hashing, allowing us to do effective and efficient large-scale program-level BCSA, surpassing the previous state-of-the-art methods. The experimental results show that KEENHash is at least 215 times faster than the state-of-the-art function matching tools while maintaining effectiveness. Furthermore, in a large-scale scenario with 5.3 billion similarity evaluations, KEENHash takes only 395.83 seconds while these tools will cost at least 56 days. We also evaluate KEENHash on the program clone search of large-scale BCSA across extensive datasets in 202,305 binaries. Compared with 4 state-of-the-art methods, KEENHash outperforms all of them by at least 23.16%, and displays remarkable superiority over them in the large-scale BCSA security scenario of malware detection.
- Abstract(参考訳): バイナリコード類似性分析(BCSA)は、サイバーセキュリティなど多くの分野において重要な研究分野である。
具体的には、関数レベルの微分ツールはBCSAで最も広く使われているツールであり、バイナリプログラム間の類似性を評価するために、関数マッチングをひとつずつ実行する。
しかし、そのような手法は、大規模なシナリオ(例えば、1/n-to-n探索)ではスケールできないような、高い時間を要する。
プログラムレベルのBCSAを効果的かつ効率的なものにするために,大規模な言語モデル(LLM)生成関数の埋め込みを通じてバイナリをプログラムレベルの表現にハッシュ化する新しいハッシュ手法KEENHashを提案する。
KEENHashは、バイナリをK-MeansとFeature Hashingを使って1つのコンパクトで固定長のプログラム埋め込みに凝縮する。
実験の結果,KEENHashは,有効性を維持しつつ,最先端機能マッチングツールよりも少なくとも215倍高速であることがわかった。
さらに、530億の類似性評価を持つ大規模シナリオでは、KEENHashは395.83秒しかかかりませんが、これらのツールは56日以上かかります。
また,202,305バイナリにおける大規模BCSAのプログラムクローン探索におけるKEENHashの評価を行った。
最先端の4つの方法と比較して、KEENHashはこれら全てを少なくとも23.16%上回り、マルウェア検出の大規模なBCSAセキュリティシナリオにおいて、それらよりも顕著に優れている。
関連論文リスト
- Performance Evaluation of Hashing Algorithms on Commodity Hardware [0.0]
本稿では,一般的なハッシュアルゴリズムBlake3,SHA-256,SHA-512の性能評価を行う。
これらのハッシュアルゴリズムは、デジタル署名、メッセージ認証、パスワードストレージなど、様々なアプリケーションで広く使われている。
評価の結果、Blake3はスループットとレイテンシの点でSHA-256とSHA-512の両方を上回っている。
論文 参考訳(メタデータ) (2024-07-11T08:31:02Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - A Lower Bound of Hash Codes' Performance [122.88252443695492]
本稿では,ハッシュ符号間のクラス間の差分性とクラス内圧縮性が,ハッシュ符号の性能の低い境界を決定することを証明する。
次に、ハッシュコードの後部を推定し、それを制御することにより、上記の目的を完全に活用する代理モデルを提案し、低バイアス最適化を実現する。
一連のハッシュモデルをテストすることで、平均精度が最大で26.5%、精度が最大で20.5%向上した。
論文 参考訳(メタデータ) (2022-10-12T03:30:56Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Hashing Learning with Hyper-Class Representation [8.206031417113987]
既存の教師なしハッシュ学習は属性中心の計算の一種である。
データ間の類似性を正確に保存することはできない。
本稿では,超クラス表現を用いたハッシュアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-06T03:35:45Z) - Unsupervised Multi-Index Semantic Hashing [23.169142004594434]
マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルを提案する。
文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。
マルチインデックスハッシュは、線形スキャンと比較してベースラインの効率も向上しますが、MISHよりも33%遅くなっています。
論文 参考訳(メタデータ) (2021-03-26T13:33:48Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Deep Hashing with Hash-Consistent Large Margin Proxy Embeddings [65.36757931982469]
画像ハッシュコードは、分類または検索のために訓練された畳み込みニューラルネットワーク(CNN)の埋め込みをバイナライズすることによって生成される。
この曖昧さを解消するために、固定されたプロキシ(CNN分類層の重み)の使用が提案されている。
得られたHCLMプロキシはハッシュ単位の飽和を促進することが示され、小さな二項化誤差が保証される。
論文 参考訳(メタデータ) (2020-07-27T23:47:43Z) - Procrustean Orthogonal Sparse Hashing [3.302605292858623]
昆虫の嗅覚は, スパースハッシュと構造的に, 機能的に類似していることが示されている。
本稿ではこれらの知見を統一する新しい方法であるPOSH(Procrustean Orthogonal Sparse Hashing)を提案する。
本稿では,これらの欠陥に対処する2つの新しい手法,Binary OSLとSphericalHashを提案する。
論文 参考訳(メタデータ) (2020-06-08T18:09:33Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z) - Image Hashing by Minimizing Discrete Component-wise Wasserstein Distance [12.968141477410597]
競合するオートエンコーダは、バランスよく高品質なハッシュコードを生成する堅牢で局所性を保存するハッシュ関数を暗黙的に学習できることが示されている。
既存の逆ハッシュ法は、大規模な画像検索に非効率である。
本稿では,サンプル要求と計算コストを大幅に低減した,新しい対向型オートエンコーダハッシュ手法を提案する。
論文 参考訳(メタデータ) (2020-02-29T00:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。