論文の概要: DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2505.11340v1
- Date: Fri, 16 May 2025 15:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.375972
- Title: DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios
- Title(参考訳): DecompileBench: 実世界のシナリオでデコンパイラを評価するための総合ベンチマーク
- Authors: Zeyu Gao, Yuxin Cui, Hao Wang, Siliang Qin, Yuanda Wang, Bolun Zhang, Chao Zhang,
- Abstract要約: 既存のアプローチは主に、合成マイクロベンチマークや主観的人間格付けによる統語的正当性に焦点を当てている。
DecompileBenchはリバースエンジニアリングにおけるデコンパイラの効果的な評価を可能にする最初の総合的なフレームワークである。
- 参考スコア(独自算出の注目度): 9.284467500179922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decompilers are fundamental tools for critical security tasks, from vulnerability discovery to malware analysis, yet their evaluation remains fragmented. Existing approaches primarily focus on syntactic correctness through synthetic micro-benchmarks or subjective human ratings, failing to address real-world requirements for semantic fidelity and analyst usability. We present DecompileBench, the first comprehensive framework that enables effective evaluation of decompilers in reverse engineering workflows through three key components: \textit{real-world function extraction} (comprising 23,400 functions from 130 real-world programs), \textit{runtime-aware validation}, and \textit{automated human-centric assessment} using LLM-as-Judge to quantify the effectiveness of decompilers in reverse engineering workflows. Through a systematic comparison between six industrial-strength decompilers and six recent LLM-powered approaches, we demonstrate that LLM-based methods surpass commercial tools in code understandability despite 52.2% lower functionality correctness. These findings highlight the potential of LLM-based approaches to transform human-centric reverse engineering. We open source \href{https://github.com/Jennieett/DecompileBench}{DecompileBench} to provide a framework to advance research on decompilers and assist security experts in making informed tool selections based on their specific requirements.
- Abstract(参考訳): デコンパイラは、脆弱性発見からマルウェア分析に至るまで、重要なセキュリティタスクのための基本的なツールである。
既存のアプローチは、主に合成マイクロベンチマークや主観的人間格付けによる統語的正当性に焦点を当てており、意味的忠実さとアナリストのユーザビリティの現実的な要件に対処できなかった。
DecompileBenchは,リバースエンジニアリングワークフローにおけるデコンパイラの効果的な評価を可能にする,最初の総合的なフレームワークである。3つの主要なコンポーネント – \textit{real-world function extract} (130の現実世界プログラムから23,400の関数を合成する), \textit{runtime-aware validation}, \textit{automated human-centric Assessment} – LLM-as-Judge を用いて,逆エンジニアリングワークフローにおけるデコンパイラの有効性を定量化する。
6つの産業用デコンパイラと最近のLLMによる6つのアプローチを体系的に比較することにより、52.2%の機能性の正確さにもかかわらず、LCMベースの手法がコード理解性において商用ツールを上回ることを示した。
これらの知見は、人間中心のリバースエンジニアリングを変革するためのLLMベースのアプローチの可能性を強調している。
このフレームワークは、デコンパイラの研究を前進させ、特定の要件に基づいて情報ツールの選択を行うためのセキュリティ専門家を支援する。
関連論文リスト
- CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。
CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。
提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T08:59:14Z) - CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。
我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文 参考訳(メタデータ) (2025-03-12T14:30:05Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。
本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。
次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。
実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文 参考訳(メタデータ) (2025-02-02T06:36:01Z) - SCoPE: Evaluating LLMs for Software Vulnerability Detection [0.0]
この研究は、コード関連タスクのモデルをトレーニングするために一般的に使用されるCVEFixesデータセットを調査し、洗練する。
SCoPEが生成した出力はCVEFixesの新バージョンを作成するために使われた。
その結果,SCoPEは評価されたサブセット内の905個の複製の同定に有効であった。
論文 参考訳(メタデータ) (2024-07-19T15:02:00Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。