論文の概要: BinEnhance: An Enhancement Framework Based on External Environment Semantics for Binary Code Search
- arxiv url: http://arxiv.org/abs/2411.01102v3
- Date: Tue, 26 Nov 2024 03:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:42.043039
- Title: BinEnhance: An Enhancement Framework Based on External Environment Semantics for Binary Code Search
- Title(参考訳): BinEnhance:バイナリコード検索のための外部環境セマンティックに基づく拡張フレームワーク
- Authors: Yongpan Wang, Hong Li, Xiaojie Zhu, Siyuan Li, Chaopeng Dong, Shouguo Yang, Kangyuan Qin,
- Abstract要約: Binは、関数間セマンティクスを活用するように設計された新しいフレームワークで、バイナリコード検索のための内部コードセマンティクスの発現を強化する。
BinのHermesSim、Asm2vec、TREX、Gemini、Asteriaへの応用により平均精度(MAP)は53.6%から69.7%に向上した。
- 参考スコア(独自算出の注目度): 19.58787358034634
- License:
- Abstract: Binary code search plays a crucial role in applications like software reuse detection. Currently, existing models are typically based on either internal code semantics or a combination of function call graphs (CG) and internal code semantics. However, these models have limitations. Internal code semantic models only consider the semantics within the function, ignoring the inter-function semantics, making it difficult to handle situations such as function inlining. The combination of CG and internal code semantics is insufficient for addressing complex real-world scenarios. To address these limitations, we propose BinEnhance, a novel framework designed to leverage the inter-function semantics to enhance the expression of internal code semantics for binary code search. Specifically, BinEnhance constructs an External Environment Semantic Graph (EESG), which establishes a stable and analogous external environment for homologous functions by using different inter-function semantic relations (e.g., call, location, data-co-use). After the construction of EESG, we utilize the embeddings generated by existing internal code semantic models to initialize nodes of EESG. Finally, we design a Semantic Enhancement Model (SEM) that uses Relational Graph Convolutional Networks (RGCNs) and a residual block to learn valuable external semantics on the EESG for generating the enhanced semantics embedding. In addition, BinEnhance utilizes data feature similarity to refine the cosine similarity of semantic embeddings. We conduct experiments under six different tasks (e.g., under function inlining scenario) and the results illustrate the performance and robustness of BinEnhance. The application of BinEnhance to HermesSim, Asm2vec, TREX, Gemini, and Asteria on two public datasets results in an improvement of Mean Average Precision (MAP) from 53.6% to 69.7%. Moreover, the efficiency increases fourfold.
- Abstract(参考訳): バイナリコード検索は、ソフトウェアの再利用検出のようなアプリケーションにおいて重要な役割を果たす。
現在、既存のモデルは一般的に、内部コードセマンティクスまたは関数呼び出しグラフ(CG)と内部コードセマンティクスの組み合わせに基づいている。
しかし、これらのモデルには制限がある。
内部コードセマンティクスモデルは関数内のセマンティクスのみを考慮し、関数間のセマンティクスを無視し、関数のインライン化のような状況を扱うのが難しくなる。
CGと内部コードセマンティクスの組み合わせは、複雑な現実世界のシナリオに対処するには不十分である。
これらの制限に対処するため、バイナリコード検索のための内部コードセマンティクス表現を強化するために、機能間セマンティクスを活用するように設計された新しいフレームワークであるBinEnhanceを提案する。
具体的には、BinEnhanceは外部環境セマンティックグラフ(EESG)を構築し、異なる機能間セマンティック関係(例えば、呼び出し、位置、データ共用)を用いて、ホモロジー関数のための安定で類似した外部環境を確立する。
EESGの構築後、既存の内部コードセマンティックモデルによって生成された埋め込みを利用してEESGのノードを初期化する。
最後に,Relational Graph Convolutional Networks (RGCNs) と残留ブロックを用いたセマンティック・エンハンスメント・モデル (SEM) を設計し,拡張セマンティクスの埋め込みを生成するためにEESG上で貴重な外部セマンティクスを学習する。
さらに、BinEnhanceはデータ特徴の類似性を利用してセマンティック埋め込みのコサイン類似性を洗練している。
我々は6つの異なるタスク(例えば関数インライン化シナリオ)で実験を行い、その結果がBinEnhanceの性能と堅牢性を示している。
BinEnhanceをHermesSim、Asm2vec、TREX、Gemini、Asteriaの2つの公開データセットに適用すると、平均精度(MAP)が53.6%から69.7%に向上する。
さらに効率は4倍になる。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - FASER: Binary Code Similarity Search through the use of Intermediate
Representations [0.8594140167290099]
クロスアーキテクチャバイナリコード類似性検索は、多くの研究で研究されている。
本稿では,Function as a String Encoded Representation (FASER)を提案する。
論文 参考訳(メタデータ) (2023-10-05T15:36:35Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - Probing Semantic Grounding in Language Models of Code with
Representational Similarity Analysis [0.11470070927586018]
本稿では,コード言語モデルにおける意味的グラウンドリングの探索にRepresentational similarity Analysisを用いることを提案する。
我々は,IBM CodeNetデータセットのデータを用いて,意味的接地のためのCodeBERTモデルから表現を探索する。
コード中の意味的摂動による実験により、CodeBERTは意味論的に正しいコードと正しくないコードとをしっかりと区別できることがわかった。
論文 参考訳(メタデータ) (2022-07-15T19:04:43Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。