論文の概要: BinCoFer: Three-Stage Purification for Effective C/C++ Binary Third-Party Library Detection
- arxiv url: http://arxiv.org/abs/2504.19551v1
- Date: Mon, 28 Apr 2025 07:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.352445
- Title: BinCoFer: Three-Stage Purification for Effective C/C++ Binary Third-Party Library Detection
- Title(参考訳): BinCoFer: 効果的なC/C++バイナリサードパーティライブラリ検出のための3段階の精製
- Authors: Yayi Zou, Yixiang Zhang, Guanghao Zhao, Yueming Wu, Shuhao Shen, Cai Fu,
- Abstract要約: サードパーティ製ライブラリ(TPL)は、効率的かつ簡潔なソフトウェア開発を実現するために人気が高まっている。
規制されていないTPLの使用は、ソフトウェア開発に法的およびセキュリティ上の問題をもたらす。
BinCoFerはバイナリプログラムで再利用されたTPLを検出するために設計されたツールである。
- 参考スコア(独自算出の注目度): 3.406168883492101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Third-party libraries (TPL) are becoming increasingly popular to achieve efficient and concise software development. However, unregulated use of TPL will introduce legal and security issues in software development. Consequently, some studies have attempted to detect the reuse of TPLs in target programs by constructing a feature repository. Most of the works require access to the source code of TPLs, while the others suffer from redundancy in the repository, low detection efficiency, and difficulties in detecting partially referenced third-party libraries. Therefore, we introduce BinCoFer, a tool designed for detecting TPLs reused in binary programs. We leverage the work of binary code similarity detection(BCSD) to extract binary-format TPL features, making it suitable for scenarios where the source code of TPLs is inaccessible. BinCoFer employs a novel three-stage purification strategy to mitigate feature repository redundancy by highlighting core functions and extracting function-level features, making it applicable to scenarios of partial reuse of TPLs. We have observed that directly using similarity threshold to determine the reuse between two binary functions is inaccurate, a problem that previous work has not addressed. Thus we design a method that uses weight to aggregate the similarity between functions in the target binary and core functions to ultimately judge the reuse situation with high frequency. To examine the ability of BinCoFer, we compiled a dataset on ArchLinux and conduct comparative experiments on it with other four most related works (i.e., ModX, B2SFinder, LibAM and BinaryAI)...
- Abstract(参考訳): サードパーティ製ライブラリ(TPL)は、効率的かつ簡潔なソフトウェア開発を実現するために人気が高まっている。
しかし、規制されていないTPLの使用は、ソフトウェア開発に法的およびセキュリティ上の問題をもたらすだろう。
その結果,機能リポジトリの構築により,対象プログラムにおけるTPLの再利用の検出を試みた研究もある。
作業の多くはTPLのソースコードへのアクセスを必要とし、他はリポジトリの冗長性、検出効率の低下、部分参照されたサードパーティライブラリの検出の困難に悩まされている。
そこで我々は,バイナリプログラムで再利用されたTPLを検出するツールであるBinCoFerを紹介する。
我々はバイナリコード類似度検出(BCSD)の作業を活用してバイナリフォーマットのTPL機能を抽出し、TPLのソースコードがアクセスできないシナリオに適合する。
BinCoFerは、コア機能を強調し、関数レベルの機能を抽出することで、機能リポジトリの冗長性を軽減し、TPLを部分的に再利用するシナリオに適用する、新しい3段階の浄化戦略を採用している。
2つのバイナリ関数間の再利用を決定するために類似性しきい値を直接使用することは不正確である。
そこで本研究では,目的のバイナリ関数とコア関数の類似性を集約するために重みを用いた手法を設計し,最終的に再利用状況を高周波で判断する。
BinCoFerの能力を調べるため、ArchLinux上のデータセットをコンパイルし、他の4つの最も関連する作品(ModX、B2SFinder、LibAM、BinaryAI)と比較実験を行った。
関連論文リスト
- An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code [4.956066467858057]
本研究では,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いた脆弱性検出について検討する。
長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。
論文 参考訳(メタデータ) (2024-05-31T03:57:19Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z) - BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching [8.655595404611821]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文 参考訳(メタデータ) (2024-01-20T07:57:57Z) - Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。
以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文 参考訳(メタデータ) (2024-01-11T08:42:08Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - LibAM: An Area Matching Framework for Detecting Third-party Libraries in
Binaries [28.877355564114904]
サードパーティライブラリ(TPL)は、ソフトウェア開発プロセスの迅速化と外部機能を組み込むために、開発者が利用する。
安全性の低いTPL再利用は、重大なセキュリティリスクを引き起こす可能性がある。
分離された関数を関数呼び出しグラフ上の関数領域に接続する新しいエリアマッチングフレームワークであるLibAMを紹介する。
論文 参考訳(メタデータ) (2023-05-06T12:26:56Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - On using distributed representations of source code for the detection of
C security vulnerabilities [14.8831988481175]
本稿では,C ソースコードの脆弱性検出作業において,コード表現モデル Code2vec の評価を行った。
我々はオープンソースのライブラリAstminerを利用して、ラベル付きC関数のコーパスの抽象構文木からパスコンテキストを抽出する。
Code2vecは、関数を脆弱性または非脆弱性として分類するタスクで、結果のパスコンテキストに基づいてトレーニングされる。
論文 参考訳(メタデータ) (2021-06-01T21:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。