論文の概要: ASSEMBLAGE-DEEPHISTORY: A Cross-Build Binary Dataset with Temporal Coverage
- arxiv url: http://arxiv.org/abs/2605.21615v1
- Date: Wed, 20 May 2026 18:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.954155
- Title: ASSEMBLAGE-DEEPHISTORY: A Cross-Build Binary Dataset with Temporal Coverage
- Title(参考訳): ASSEMBLAGE-DEEPHISTORY: 時間被覆を伴うクロスビルディングバイナリデータセット
- Authors: Chang Liu, Noah Fleischmann, Nicolò Altamura, Edward Raff, James Holt, Kristopher Micinski,
- Abstract要約: 本稿では, クロスビルドの多様性, クロスバージョン履歴, CVE ラベルをクエリ可能な構造に集約した ASSEMBLAGE-DEEPHISTORY を提案する。
ASSEMBLAGE-DEEPHISTORYは、248のオープンソースプロジェクトにまたがる73,610のバイナリで構成され、GCC、Clang、MSVCでコンパイルされる。
各バイナリはデータベースにインデックスされ、ソースコード、関数、デバッグ情報、変更版ビルド、履歴バージョン、脆弱性のある関数にリンクされる。
- 参考スコア(独自算出の注目度): 35.66555702085075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing binary corpora typically capture only one or two axes of binary variation: they either provide cross-compiler builds without a temporal axis, or CVE labels for single-build binaries. None combine cross-build diversity, cross-version history, and CVE labels into a queryable structure. We present ASSEMBLAGE-DEEPHISTORY, which consolidates these dimensions into a unified framework where every binary's compilation context, source code, vulnerable functions, and package version are stored as first-class metadata. ASSEMBLAGE-DEEPHISTORY comprises 73,610 binaries spanning 248 open-source projects, compiled across GCC, Clang, and MSVC at multiple optimization levels on Linux and Windows, with multi-year historical builds. Each binary is indexed in a database that links it to its source code, functions, debug info, variant builds, historical versions, and vulnerable functions. Three analyses demonstrate this structure's value: (1) a three-stage LLM benchmark (recognition, strategy-guided detection, and cross-build transfer) to test whether LLMs reason about binary vulnerabilities or pattern-match on build-specific artifacts; (2) a comparison of MalConv embeddings, jTrans function embeddings, and TLSH fuzzy hashes quantifying how same-package versions cluster in each space; and (3) a Bayesian regression decomposing binary similarity into contributions from temporal distance, file changes, and commits.
- Abstract(参考訳): 既存のバイナリコーパスは通常、バイナリ変数の1つまたは2つの軸のみをキャプチャする: 時間軸のないクロスコンパイラビルドを提供するか、単一ビルドバイナリ用のCVEラベルを提供する。
クロスビルドの多様性、クロスバージョン履歴、CVEラベルをクエリ可能な構造に組み合わせることはできません。
ASSEMBLAGE-DEEPHISTORYは,各バイナリのコンパイルコンテキスト,ソースコード,脆弱性関数,パッケージバージョンをファーストクラスメタデータとして格納する統合フレームワークとして,これらの次元を集約する。
ASSEMBLAGE-DEEPHISTORYは、248のオープンソースプロジェクトにまたがる73,610のバイナリで構成され、GCC、Clang、MSVCにまたがって、LinuxとWindowsの複数の最適化レベルと、複数年にわたる歴史的ビルドによってコンパイルされる。
各バイナリはデータベースにインデックスされ、ソースコード、関数、デバッグ情報、変更版ビルド、履歴バージョン、脆弱性のある関数にリンクされる。
3段階のLCMベンチマーク(認識、戦略誘導検出、クロスビルド転送)で、LLMがバイナリ脆弱性やビルド固有のアーティファクト上のパターンマッチを理由付けているかどうかをテストする。 2) MalConv組み込み、jTrans関数埋め込み、TLSHファジィハッシュの比較は、各スペースにおける同パッケージバージョンクラスタの定量化、3) 時間的距離、ファイル変更、コミットからバイナリ類似性を分解するベイズ回帰である。
関連論文リスト
- Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery [47.704311990064554]
脱コンパイルは、セキュリティ分析、マルウェアのリバースエンジニアリング、レガシーソフトウェアメンテナンスに不可欠である。
マルチレベル制約誘導型デコンパイル(MCGD)により,デコンパイルされたコードを再実行可能なソースに変換するマルチエージェントフレームワークを提案する。
本フレームワークは,84~97%の再実行性を実現し,28~89ポイントのベースラインデコンパイラ出力を改善した。
論文 参考訳(メタデータ) (2026-04-27T01:28:11Z) - Cross-modal Retrieval Models for Stripped Binary Analysis [62.89251403093734]
BinSeekは、取り除かれたバイナリコード分析のための最初の2段階のクロスモーダル検索フレームワークである。
BinSeekEmbeddingは、バイナリコードのセマンティックな関連性を学ぶために、大規模なデータセットでトレーニングされている。
BinSeek-Rerankerは、コンテキスト拡張による記述に対する候補コードの関連性を慎重に判断することを学ぶ。
論文 参考訳(メタデータ) (2025-12-11T07:58:10Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompilation [18.28488002922524]
Decompile-Benchは、収集された1億の関数ペアから凝縮された200万のバイナリソース関数ペアからなる、最初のオープンソースデータセットである。
評価のために、よく確立されたHumanEvalとMBPPから手作業で作成したバイナリを含むDecompile-Bench-Evalのベンチマークを開発した。
Decompile-Benchによる微調整は、再実行可能性率の観点から、以前のベンチマークよりも20%改善されていることが分かりました。
論文 参考訳(メタデータ) (2025-05-19T03:34:33Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Levels of Binary Equivalence for the Comparison of Binaries from Alternative Builds [1.1405827621489222]
ビルドプラットフォームの可変性は、妥協されたビルド環境の検出を容易にするため、セキュリティを強化することができる。
同じソースから構築された複数のバイナリの可用性は、新たな課題と機会を生み出します。
そのような質問に答えるためには、バイナリ間の等価性の概念が必要である。
論文 参考訳(メタデータ) (2024-10-11T00:16:26Z) - VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity [36.341893383865745]
VexIR2Vecはアーキテクチャニュートラル中間表現(IR)であるVEX-IRを用いたバイナリ類似性のためのアプローチである
我々は、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。
VexIR2Vecは3.1ドル-3.5ドルで、最も近いベースラインとマグニチュードよりも高速である。
論文 参考訳(メタデータ) (2023-12-01T11:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。