論文の概要: CREBench: Evaluating Large Language Models in Cryptographic Binary Reverse Engineering
- arxiv url: http://arxiv.org/abs/2604.03750v1
- Date: Sat, 04 Apr 2026 14:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.751034
- Title: CREBench: Evaluating Large Language Models in Cryptographic Binary Reverse Engineering
- Title(参考訳): CREBench: 暗号バイナリリバースエンジニアリングにおける大規模言語モデルの評価
- Authors: Baicheng Chen, Yu Wang, Ziheng Zhou, Xiangru Liu, Juanru Li, Yilei Chen, Tianxing He,
- Abstract要約: 大規模言語モデル(LLM)の暗号バイナリリバースエンジニアリング機能について検討する。
ベンチマークでは,48の標準暗号アルゴリズム,3つの安全でない暗号鍵使用シナリオ,3つの難易度から構築した432の課題で構成されている。
また、92.19ポイントの強力な人間専門家ベースラインを確立し、暗号REタスクにおいて人間が優位を維持していることを示す。
- 参考スコア(独自算出の注目度): 12.401873262343862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse engineering (RE) is central to software security, particularly for cryptographic programs that handle sensitive data and are highly prone to vulnerabilities. It supports critical tasks such as vulnerability discovery and malware analysis. Despite its importance, RE remains labor-intensive and requires substantial expertise, making large language models (LLMs) a potential solution for automating the process. However, their capabilities for RE remain systematically underexplored. To address this gap, we study the cryptographic binary RE capabilities of LLMs and introduce \textbf{CREBench}, a benchmark comprising 432 challenges built from 48 standard cryptographic algorithms, 3 insecure crypto key usage scenarios, and 3 difficulty levels. Each challenge follows a Capture-the-Flag (CTF) RE challenge, requiring the model to analyze the underlying cryptographic logic and recover the correct input. We design an evaluation framework comprising four sub-tasks, from algorithm identification to correct flag recovery. We evaluate eight frontier LLMs on CREBench. GPT-5.4, the best-performing model, achieves 64.03 out of 100 and recovers the flag in 59\% of challenges. We also establish a strong human expert baseline of 92.19 points, showing that humans maintain an advantage in cryptographic RE tasks. Our code and dataset are available at https://github.com/wangyu-ovo/CREBench.
- Abstract(参考訳): リバースエンジニアリング(RE)はソフトウェアセキュリティの中心であり、特に機密データを扱う暗号プログラムでは脆弱性が非常に多い。
脆弱性発見やマルウェア分析といった重要なタスクをサポートする。
その重要性にもかかわらず、REは労働集約的であり、相当な専門知識を必要とし、大きな言語モデル(LLM)をプロセスを自動化する潜在的ソリューションにする。
しかし、REの能力は体系的に過小評価されている。
このギャップに対処するために、LLMの暗号バイナリRE機能について検討し、標準暗号アルゴリズム48、安全でない暗号鍵使用シナリオ3、難易度3から構築された432の課題からなるベンチマークである \textbf{CREBench} を導入する。
各チャレンジはCapture-the-Flag (CTF) REチャレンジに従い、基盤となる暗号ロジックを分析して正しい入力を復元する必要がある。
我々は,アルゴリズム識別からフラグ回復までの4つのサブタスクからなる評価フレームワークを設計する。
CREBench 上で8つのフロンティア LLM の評価を行った。
最高のパフォーマンスモデルであるGPT-5.4は、100点中64.03点を達成し、596%の課題でフラグを回収する。
また、92.19ポイントの強力な人間専門家ベースラインを確立し、暗号REタスクにおいて人間が優位を維持していることを示す。
私たちのコードとデータセットはhttps://github.com/wangyu-ovo/CREBench.comで公開されています。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - KryptoPilot: An Open-World Knowledge-Augmented LLM Agent for Automated Cryptographic Exploitation [16.43451504898208]
KryptoPilot(クリプトパイロット)は、オープンソースの知識強化型LLMエージェントである。
我々は、KryptoPilotがInterCode-CTFの完全な解決率を達成し、NYU-CTFベンチマークにおける暗号化課題の56~60%を解決し、ライブコンペティションにおける33の暗号課題のうち26の解決に成功したことを示す。
論文 参考訳(メタデータ) (2026-01-14T04:02:40Z) - AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models [31.974963309762913]
AICryptoは、大規模言語モデルの暗号能力を評価するために設計された最初の包括的なベンチマークである。
ベンチマークは135の多重選択質問、150のキャプチャー・ザ・フラッグ課題、18の証明問題で構成されている。
LLMをリードする17のモデルの評価は、最先端のモデルが暗号概念を記憶する上で、人間の専門家と一致しているか、さらに上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-13T11:11:01Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。