論文の概要: VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity
- arxiv url: http://arxiv.org/abs/2312.00507v2
- Date: Tue, 9 Jul 2024 17:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:21:19.262079
- Title: VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity
- Title(参考訳): VEXIR2Vec: バイナリ類似性のためのアーキテクチャニュートラルな埋め込みフレームワーク
- Authors: S. VenkataKeerthy, Soumya Banerjee, Sayan Dey, Yashas Andaluri, Raghul PS, Subrahmanyam Kalyanasundaram, Fernando Magno Quintão Pereira, Ramakrishna Upadrasta,
- Abstract要約: VexIR2Vecはアーキテクチャニュートラル中間表現(IR)であるVEX-IRを用いたバイナリ類似性のためのアプローチである
我々は、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。
VexIR2Vecは3.1ドル-3.5ドルで、最も近いベースラインとマグニチュードよりも高速である。
- 参考スコア(独自算出の注目度): 36.341893383865745
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Binary similarity involves determining whether two binary programs exhibit similar functionality, often originating from the same source code. In this work, we propose VexIR2Vec, an approach for binary similarity using VEX-IR, an architecture-neutral Intermediate Representation (IR). We extract the embeddings from sequences of basic blocks, termed peepholes, derived by random walks on the control-flow graph. The peepholes are normalized using transformations inspired by compiler optimizations. The VEX-IR Normalization Engine mitigates, with these transformations, the architectural and compiler-induced variations in binaries while exposing semantic similarities. We then learn the vocabulary of representations at the entity level of the IR using the knowledge graph embedding techniques in an unsupervised manner. This vocabulary is used to derive function embeddings for similarity assessment using VexNet, a feed-forward Siamese network designed to position similar functions closely and separate dissimilar ones in an n-dimensional space. This approach is amenable for both diffing and searching tasks, ensuring robustness against Out-Of-Vocabulary (OOV) issues. We evaluate VexIR2Vec on a dataset comprising 2.7M functions and 15.5K binaries from 7 projects compiled across 12 compilers targeting x86 and ARM architectures. In diffing experiments, VexIR2Vec outperforms the nearest baselines by $40\%$, $18\%$, $21\%$, and $60\%$ in cross-optimization, cross-compilation, cross-architecture, and obfuscation settings, respectively. In the searching experiment, VexIR2Vec achieves a mean average precision of $0.76$, outperforming the nearest baseline by $46\%$. Our framework is highly scalable and is built as a lightweight, multi-threaded, parallel library using only open-source tools. VexIR2Vec is $3.1$-$3.5 \times$ faster than the closest baselines and orders-of-magnitude faster than other tools.
- Abstract(参考訳): バイナリの類似性は、2つのバイナリプログラムが、しばしば同じソースコードから派生した、同様の機能を示すかどうかを決定することである。
本稿では,アーキテクチャニュートラル中間表現 (IR) である VEX-IR を用いたバイナリ類似性のためのアプローチ VexIR2Vec を提案する。
制御フローグラフ上のランダムウォークによって導かれる,ペプホールと呼ばれる基本ブロックの列から埋め込みを抽出する。
ピープホールはコンパイラ最適化にインスパイアされた変換を使用して正規化される。
VEX-IR正規化エンジンは、これらの変換により、アーキテクチャとコンパイラによるバイナリのバリエーションを緩和し、セマンティックな類似性を露呈する。
次に、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。
この語彙は、類似性評価のための関数埋め込みをVexNetを用いて導出するために用いられる。
このアプローチは、拡散タスクと探索タスクの両方に適しており、OF-Vocabulary (OOV)問題に対する堅牢性を保証する。
我々は、x86とARMアーキテクチャをターゲットにした12のコンパイラでコンパイルされた7つのプロジェクトから、2.7M関数と15.5Kバイナリからなるデータセット上で、VexIR2Vecを評価する。
回折実験では、VexIR2Vecは、それぞれ、クロス最適化、クロスコンパイル、クロスアーキテクチャ、難読化設定において、最も近いベースラインを$40\%、$18\%、$21\%、$60\%で上回る。
探索実験では、VexIR2Vecの平均平均精度は0.76ドルであり、最寄りのベースラインよりも46.%高い。
当社のフレームワークは高度にスケーラブルで,オープンソースツールのみを使用して,軽量でマルチスレッドな並列ライブラリとして構築されています。
VexIR2Vecは3.1$-$3.5 \times$で、他のツールよりも近いベースラインや命令より速い。
関連論文リスト
- Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization [2.2596489829928452]
この研究は、1D $s$-step SGD と Averaging (FedAvg) を用いた 1D Federated SGD の作業を一般化し、2D 並列 SGD 法 (HybridSGD) を生成する。
C++ と MPI で全てのアルゴリズムを実装し,Cray EX スーパーコンピュータシステム上での性能評価を行う。
論文 参考訳(メタデータ) (2025-01-13T17:56:39Z) - fSEAD: a Composable FPGA-based Streaming Ensemble Anomaly Detection Library [1.8570740863168362]
機械学習のアンサンブルは、複数のベースモデルを組み合わせてより正確な出力を生成する。
本稿では,複数の部分再構成可能な領域,pblockからなるフレキシブルコンピューティングアーキテクチャを提案し,それぞれが異常検出を実装している。
概念実証設計では,ロダ,RS-Hash,xStreamの3つの最先端異常検出アルゴリズムがサポートされている。
論文 参考訳(メタデータ) (2024-06-10T03:38:35Z) - Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。
以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文 参考訳(メタデータ) (2024-01-11T08:42:08Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。
最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。
ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文 参考訳(メタデータ) (2022-08-17T05:43:33Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures [2.2940141855172027]
基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
論文 参考訳(メタデータ) (2021-12-24T22:34:51Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。