論文の概要: Levels of Binary Equivalence for the Comparison of Binaries from Alternative Builds
- arxiv url: http://arxiv.org/abs/2410.08427v1
- Date: Fri, 11 Oct 2024 00:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:26:42.311005
- Title: Levels of Binary Equivalence for the Comparison of Binaries from Alternative Builds
- Title(参考訳): オルタナティブビルドからのバイナリの比較におけるバイナリ等価性のレベル
- Authors: Jens Dietrich, Tim White, Behnaz Hassanshahi, Paddy Krishnan,
- Abstract要約: ビルドプラットフォームの可変性は、妥協されたビルド環境の検出を容易にするため、セキュリティを強化することができる。
同じソースから構築された複数のバイナリの可用性は、新たな課題と機会を生み出します。
そのような質問に答えるためには、バイナリ間の等価性の概念が必要である。
- 参考スコア(独自算出の注目度): 1.1405827621489222
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In response to challenges in software supply chain security, several organisations have created infrastructures to independently build commodity open source projects and release the resulting binaries. Build platform variability can strengthen security as it facilitates the detection of compromised build environments. Furthermore, by improving the security posture of the build platform and collecting provenance information during the build, the resulting artifacts can be used with greater trust. Such offerings are now available from Google, Oracle and RedHat. The availability of multiple binaries built from the same sources creates new challenges and opportunities, and raises questions such as: 'Does build A confirm the integrity of build B?' or 'Can build A reveal a compromised build B?'. To answer such questions requires a notion of equivalence between binaries. We demonstrate that the obvious approach based on bitwise equality has significant shortcomings in practice, and that there is value in opting for alternative notions. We conceptualise this by introducing levels of equivalence, inspired by clone detection types. We demonstrate the value of these new levels through several experiments. We construct a dataset consisting of Java binaries built from the same sources independently by different providers, resulting in 14,156 pairs of binaries in total. We then compare the compiled class files in those jar files and find that for 3,750 pairs of jars (26.49%) there is at least one such file that is different, also forcing the jar files and their cryptographic hashes to be different. However, based on the new equivalence levels, we can still establish that many of them are practically equivalent. We evaluate several candidate equivalence relations on a semi-synthetic dataset that provides oracles consisting of pairs of binaries that either should be, or must not be equivalent.
- Abstract(参考訳): ソフトウェアサプライチェーンのセキュリティ上の課題に応えて、いくつかの組織が独立したオープンソースプロジェクトを構築し、その結果のバイナリをリリースするインフラストラクチャを構築した。
ビルドプラットフォームの可変性は、妥協されたビルド環境の検出を容易にするため、セキュリティを強化することができる。
さらに、ビルドプラットフォームのセキュリティ姿勢を改善し、ビルド中に実績情報を集めることで、結果のアーティファクトをより信頼性の高いものにすることができる。
これらのサービスは、Google、Oracle、RedHatから利用可能である。
同じソースから構築された複数のバイナリが利用可能になったことで、新たな課題と機会が生まれ、"Does build B?"や"Can build A revealed a compromiseed build B?"といった疑問が提起される。
そのような質問に答えるためには、バイナリ間の等価性の概念が必要である。
ビットワイド平等に基づく明らかなアプローチは、実際は重大な欠点があり、代替概念を選択することに価値があることを実証する。
我々は、クローン検出タイプにインスパイアされた同値のレベルを導入することで、これを概念化する。
いくつかの実験を通して、これらの新しいレベルの価値を実証する。
我々は、異なるプロバイダによって同じソースから構築されたJavaバイナリからなるデータセットを構築し、合計14,156対のバイナリを生成する。
次に、それらのjarファイルのコンパイルされたクラスファイルを比較した結果、3,750対のjar(26.49%)に対して、少なくとも1つの異なるファイルが存在し、jarファイルとそれらの暗号化ハッシュが異なることを強制することがわかった。
しかし、新しい同値性レベルに基づいて、これらの多くが事実上同値であることを示すことができる。
半合成データセット上のいくつかの候補同値関係を評価した結果、同値であるべき、あるいは同値でなくてもよいバイナリのペアからなるオラクルが得られた。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - Assemblage: Automatic Binary Dataset Construction for Machine Learning [35.674339346299654]
Assemblageはクラウドベースの分散システムで、Windows PEバイナリをクロールし、構成し、構築する。
過去1年間、AWS上でAssemblageを実行し、29のコンフィギュレーションで890kのWindows PEと428kのLinux ELFバイナリを生成しました。
論文 参考訳(メタデータ) (2024-05-07T04:10:01Z) - Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - BinGo: Identifying Security Patches in Binary Code with Graph
Representation Learning [19.22004583230725]
バイナリコードに対する新しいセキュリティパッチ検出システムであるBinGoを提案する。
BinGoは、パッチデータ前処理、グラフ抽出、埋め込み生成、グラフ表現学習の4つのフェーズで構成されている。
実験の結果、BinGoは隣り合う2つのバイナリコードのセキュリティパッチを80.77%の精度で識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-13T06:35:39Z) - CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code
Completion [86.01508183157613]
CrossCodeEvalは4つの人気のあるプログラミング言語の様々な現実世界、オープンソース、パーミッシブライセンスのリポジトリ上に構築されている。
関連するクロスファイルコンテキストが欠如している場合、CrossCodeEvalは極めて困難であることを示す。
また、コードレトリバーの能力を測定するためにCrossCodeEvalが使えることも示しています。
論文 参考訳(メタデータ) (2023-10-17T13:18:01Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Repo2Vec: A Comprehensive Embedding Approach for Determining Repository
Similarity [2.095199622772379]
Repo2Vecは、リポジトリを分散ベクタとして表現するための包括的な埋め込みアプローチである。
当社の手法をGitHubから2つの実際のデータセットで評価し、1013リポジトリを組み合わせて検討した。
論文 参考訳(メタデータ) (2021-07-11T18:57:03Z) - Contextualizing Meta-Learning via Learning to Decompose [125.76658595408607]
本稿では,メタ学習型サポート・ツー・ターゲット戦略の文脈化を図るために,ネットワーク(LeadNet)を分解する学習を提案する。
LeadNetは、コンテキスト間の比較をポリセムの埋め込みに組み込むことで、右に関連付けられた戦略を自動的に選択することを学ぶ。
論文 参考訳(メタデータ) (2021-06-15T13:10:56Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。