論文の概要: AICrypto: A Comprehensive Benchmark For Evaluating Cryptography Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2507.09580v1
- Date: Sun, 13 Jul 2025 11:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.562729
- Title: AICrypto: A Comprehensive Benchmark For Evaluating Cryptography Capabilities of Large Language Models
- Title(参考訳): AICrypto:大規模言語モデルの暗号能力評価のための総合ベンチマーク
- Authors: Yu Wang, Yijian Liu, Liheng Ji, Han Luo, Wenjie Li, Xiaofei Zhou, Chiyun Feng, Puji Wang, Yuhan Cao, Geyuan Zhang, Xiaojian Li, Rongwu Xu, Yilei Chen, Tianxing He,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な機能を示している。
本ベンチマークでは, 複数選択質問135件, キャプチャー・ザ・フラッグ(CTF)150件, 証明問題18件からなる。
LLMをリードする17のモデルの評価は、最先端のモデルが暗号概念を記憶する上で、人間の専門家と一致しているか、さらに上回っていることを示している。
- 参考スコア(独自算出の注目度): 18.222665072623755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a variety of domains. However, their applications in cryptography, which serves as a foundational pillar of cybersecurity, remain largely unexplored. To address this gap, we propose \textbf{AICrypto}, the first comprehensive benchmark designed to evaluate the cryptographic capabilities of LLMs. The benchmark comprises 135 multiple-choice questions, 150 capture-the-flag (CTF) challenges, and 18 proof problems, covering a broad range of skills from factual memorization to vulnerability exploitation and formal reasoning. All tasks are carefully reviewed or constructed by cryptography experts to ensure correctness and rigor. To support automated evaluation of CTF challenges, we design an agent-based framework. To gain deeper insight into the current state of cryptographic proficiency in LLMs, we introduce human expert performance baselines for comparison across all task types. Our evaluation of 17 leading LLMs reveals that state-of-the-art models match or even surpass human experts in memorizing cryptographic concepts, exploiting common vulnerabilities, and routine proofs. However, they still lack a deep understanding of abstract mathematical concepts and struggle with tasks that require multi-step reasoning and dynamic analysis. We hope this work could provide insights for future research on LLMs in cryptographic applications. Our code and dataset are available at https://aicryptobench.github.io.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な機能を示している。
しかし、サイバーセキュリティの基礎的な柱として機能する暗号の応用は、いまだに未解明のままである。
このギャップに対処するために、LLMの暗号能力を評価するために設計された最初の総合的なベンチマークである \textbf{AICrypto} を提案する。
ベンチマークには、135の多重選択質問、150のキャプチャー・ザ・フラッグ(CTF)課題、18の証明問題が含まれており、事実の記憶から脆弱性のエクスプロイト、フォーマルな推論まで幅広いスキルをカバーしている。
すべてのタスクは、正確さと厳密さを保証するために、暗号の専門家によって慎重にレビューまたは構築される。
CTF課題の自動評価を支援するため,エージェントベースのフレームワークを設計する。
LLMにおける暗号技術の現状についてより深い知見を得るため、すべてのタスクタイプを比較するために、人間の専門家による性能基準を導入する。
LLMをリードする17のモデルを評価すると、最先端のモデルが暗号概念を記憶し、共通の脆弱性を悪用し、定期的な証明を行う上で、人間の専門家に匹敵する、あるいは超える結果が得られます。
しかし、抽象的な数学的概念の深い理解はいまだに欠けており、多段階の推論と動的解析を必要とするタスクに苦戦している。
この研究が、将来の暗号アプリケーションにおけるLCMの研究に役立つことを願っている。
私たちのコードとデータセットはhttps://aicryptobench.github.io.comで公開されています。
関連論文リスト
- Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Benchmarking Large Language Models for Cryptanalysis and Mismatched-Generalization [4.020376901658977]
大規模言語モデル(LLM)は、自然言語の理解と生成を変革した。
データセキュリティと暗号化にとって重要な領域である暗号解析は、まだLLM評価において徹底的に研究されていない。
我々は,様々な暗号アルゴリズムを用いて生成した暗号化テキストに対して,美術用LLMの暗号解析可能性を評価する。
論文 参考訳(メタデータ) (2025-05-30T14:12:07Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges [42.16123880046729]
暗号復号処理における大規模言語モデル(LLM)の推論能力を評価するために設計されたベンチマークであるCipherBankを紹介する。
我々は、CipherBank(例えば、GPT-4o、DeepSeek-V3、o1やDeepSeek-R1といった最先端の推論モデル)における最先端のLCMを評価した。
論文 参考訳(メタデータ) (2025-04-27T03:41:17Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。
マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。
この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文 参考訳(メタデータ) (2025-03-15T17:57:44Z) - DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。
私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。
本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文 参考訳(メタデータ) (2024-08-23T16:33:58Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。