Fugu-MT 論文翻訳(概要): DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios

論文の概要: DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios

arxiv url: http://arxiv.org/abs/2505.11340v1
Date: Fri, 16 May 2025 15:07:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:15.375972
Title: DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios
Title（参考訳）: DecompileBench: 実世界のシナリオでデコンパイラを評価するための総合ベンチマーク
Authors: Zeyu Gao, Yuxin Cui, Hao Wang, Siliang Qin, Yuanda Wang, Bolun Zhang, Chao Zhang,
Abstract要約: 既存のアプローチは主に、合成マイクロベンチマークや主観的人間格付けによる統語的正当性に焦点を当てている。 DecompileBenchはリバースエンジニアリングにおけるデコンパイラの効果的な評価を可能にする最初の総合的なフレームワークである。
参考スコア（独自算出の注目度）: 9.284467500179922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decompilers are fundamental tools for critical security tasks, from vulnerability discovery to malware analysis, yet their evaluation remains fragmented. Existing approaches primarily focus on syntactic correctness through synthetic micro-benchmarks or subjective human ratings, failing to address real-world requirements for semantic fidelity and analyst usability. We present DecompileBench, the first comprehensive framework that enables effective evaluation of decompilers in reverse engineering workflows through three key components: \textit{real-world function extraction} (comprising 23,400 functions from 130 real-world programs), \textit{runtime-aware validation}, and \textit{automated human-centric assessment} using LLM-as-Judge to quantify the effectiveness of decompilers in reverse engineering workflows. Through a systematic comparison between six industrial-strength decompilers and six recent LLM-powered approaches, we demonstrate that LLM-based methods surpass commercial tools in code understandability despite 52.2% lower functionality correctness. These findings highlight the potential of LLM-based approaches to transform human-centric reverse engineering. We open source \href{https://github.com/Jennieett/DecompileBench}{DecompileBench} to provide a framework to advance research on decompilers and assist security experts in making informed tool selections based on their specific requirements.
Abstract（参考訳）: デコンパイラは、脆弱性発見からマルウェア分析に至るまで、重要なセキュリティタスクのための基本的なツールである。既存のアプローチは、主に合成マイクロベンチマークや主観的人間格付けによる統語的正当性に焦点を当てており、意味的忠実さとアナリストのユーザビリティの現実的な要件に対処できなかった。 DecompileBenchは,リバースエンジニアリングワークフローにおけるデコンパイラの効果的な評価を可能にする,最初の総合的なフレームワークである。3つの主要なコンポーネント – \textit{real-world function extract} (130の現実世界プログラムから23,400の関数を合成する), \textit{runtime-aware validation}, \textit{automated human-centric Assessment} – LLM-as-Judge を用いて,逆エンジニアリングワークフローにおけるデコンパイラの有効性を定量化する。 6つの産業用デコンパイラと最近のLLMによる6つのアプローチを体系的に比較することにより、52.2%の機能性の正確さにもかかわらず、LCMベースの手法がコード理解性において商用ツールを上回ることを示した。これらの知見は、人間中心のリバースエンジニアリングを変革するためのLLMベースのアプローチの可能性を強調している。このフレームワークは、デコンパイラの研究を前進させ、特定の要件に基づいて情報ツールの選択を行うためのセキュリティ専門家を支援する。

関連論文リスト

Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security [0.0]
大規模言語モデル(LLM)は、ネイティブコードインタプリタを統合し、リアルタイム実行機能を実現する。これらの統合は、システムレベルのサイバーセキュリティの脅威をもたらす可能性がある。本稿では、CPU、メモリ、ディスクリソースの枯渇をターゲットとした1,260プロンプトからなる単純なベンチマークであるCIRCLE(Code-Interpreter Resilience Check for LLM Exploits)を提案する。
論文参考訳（メタデータ） (2025-07-25T16:06:16Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。 MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文参考訳（メタデータ） (2025-05-22T14:02:37Z)
OSS-Bench: Benchmark Generator for Coding LLMs [4.393587297483245]
本稿では,実世界のオープンソースソフトウェアから大規模かつ実運用的な評価タスクを構築するベンチマークジェネレータOSS-Benchを紹介する。 OSS-Benchは、関数をLLM生成コードに置き換えて、コンパイル性、機能的正確性、メモリ安全性という3つの自然な指標を使用して評価する。 OSS-BenchはOSSの複雑さの進化を生かして過度な適合を緩和することを示した。
論文参考訳（メタデータ） (2025-05-18T09:53:51Z)
CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。 CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-05-07T08:59:14Z)
Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。 TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文参考訳（メタデータ） (2025-03-12T14:30:05Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文参考訳（メタデータ） (2025-02-02T06:36:01Z)
SCoPE: Evaluating LLMs for Software Vulnerability Detection [0.0]
この研究は、コード関連タスクのモデルをトレーニングするために一般的に使用されるCVEFixesデータセットを調査し、洗練する。 SCoPEが生成した出力はCVEFixesの新バージョンを作成するために使われた。その結果,SCoPEは評価されたサブセット内の905個の複製の同定に有効であった。
論文参考訳（メタデータ） (2024-07-19T15:02:00Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。