論文の概要: DALEQ -- Explainable Equivalence for Java Bytecode
- arxiv url: http://arxiv.org/abs/2508.01530v1
- Date: Sun, 03 Aug 2025 01:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:04:38.870486
- Title: DALEQ -- Explainable Equivalence for Java Bytecode
- Title(参考訳): DALEQ -- Javaバイトコードの説明可能な等価性
- Authors: Jens Dietrich, Behnaz Hassanshahi,
- Abstract要約: Javaバイトコードをリレーショナルデータベースに分解するツールであるdaleqを紹介します。
次に、データログルールを適用し、2つのクラス間で等価性を推測することで、このデータベースを正規化することができる。
本研究では,2,714対の瓶を含む大規模評価を通じて,工業的文脈におけるdaleqの影響を実証する。
- 参考スコア(独自算出の注目度): 1.4003844469021811
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The security of software builds has attracted increased attention in recent years in response to incidents like solarwinds and xz. Now, several companies including Oracle and Google rebuild open source projects in a secure environment and publish the resulting binaries through dedicated repositories. This practice enables direct comparison between these rebuilt binaries and the original ones produced by developers and published in repositories such as Maven Central. These binaries are often not bitwise identical; however, in most cases, the differences can be attributed to variations in the build environment, and the binaries can still be considered equivalent. Establishing such equivalence, however, is a labor-intensive and error-prone process. While there are some tools that can be used for this purpose, they all fall short of providing provenance, i.e. readable explanation of why two binaries are equivalent, or not. To address this issue, we present daleq, a tool that disassembles Java byte code into a relational database, and can normalise this database by applying datalog rules. Those databases can then be used to infer equivalence between two classes. Notably, equivalence statements are accompanied with datalog proofs recording the normalisation process. We demonstrate the impact of daleq in an industrial context through a large-scale evaluation involving 2,714 pairs of jars, comprising 265,690 class pairs. In this evaluation, daleq is compared to two existing bytecode transformation tools. Our findings reveal a significant reduction in the manual effort required to assess non-bitwise equivalent artifacts, which would otherwise demand intensive human inspection. Furthermore, the results show that daleq outperforms existing tools by identifying more artifacts rebuilt from the same code as equivalent, even when no behavioral differences are present.
- Abstract(参考訳): ソフトウェアビルドのセキュリティは、太陽風やxzといったインシデントへの対応として、近年注目を集めている。
現在、OracleやGoogleなどいくつかの企業がオープンソースプロジェクトをセキュアな環境に再構築し、専用のリポジトリを通じて結果のバイナリを公開している。
このプラクティスは、これらリビルドされたバイナリと、Maven Centralのようなリポジトリで公開された開発者によって作成されたオリジナルのバイナリとを直接比較することを可能にする。
これらのバイナリはビット単位では同じではないことが多いが、ほとんどの場合、違いはビルド環境のバリエーションに起因する可能性がある。
しかし、そのような等価性を確立することは、労働集約的でエラーを起こしやすいプロセスである。
この目的のために使用できるツールがいくつかあるが、いずれも証明できない。すなわち、2つのバイナリが等価であるかどうかの可読な説明である。
この問題に対処するため、私たちは、Javaバイトコードをリレーショナルデータベースに分解するツールであるdaleqを紹介します。
これらのデータベースは、2つのクラス間の等価性を推測するために使用することができる。
特に同値ステートメントには、正規化プロセスを記録するデータログ証明が添付されている。
265,690対の瓶を含む2,714対の瓶を大規模に評価することにより,工業的文脈におけるdaleqの影響を実証した。
この評価では、daleqは既存の2つのバイトコード変換ツールと比較される。
以上の結果から,人体検査を強く要求する非ビット単位のアーティファクトの評価に要する手作業の大幅な削減が明らかとなった。
さらに、Dalqは、振る舞いの違いがない場合でも、同じコードから再構築されたアーティファクトを同等に識別することで、既存のツールよりも優れています。
関連論文リスト
- Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompilation [12.983487033256448]
Decompile-Benchは、収集された1億の関数ペアから凝縮された200万のバイナリソース関数ペアからなる、最初のオープンソースデータセットである。
評価のために、よく確立されたHumanEvalとMBPPから手作業で作成したバイナリを含むDecompile-Bench-Evalのベンチマークを開発した。
Decompile-Benchによる微調整は、再実行可能性率の観点から、以前のベンチマークよりも20%改善されていることが分かりました。
論文 参考訳(メタデータ) (2025-05-19T03:34:33Z) - An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - cozy: Comparative Symbolic Execution for Binary Programs [0.6999740786886538]
cozyは、ソフトウェアバイナリの2つのバージョンの違いを分析し、視覚化するツールである。
cozyにはWebベースのビジュアルインターフェースがあり、比較結果を見ることができる。
論文 参考訳(メタデータ) (2025-03-31T18:59:30Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - Levels of Binary Equivalence for the Comparison of Binaries from Alternative Builds [1.1405827621489222]
ビルドプラットフォームの可変性は、妥協されたビルド環境の検出を容易にするため、セキュリティを強化することができる。
同じソースから構築された複数のバイナリの可用性は、新たな課題と機会を生み出します。
そのような質問に答えるためには、バイナリ間の等価性の概念が必要である。
論文 参考訳(メタデータ) (2024-10-11T00:16:26Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。