論文の概要: CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
- arxiv url: http://arxiv.org/abs/2504.19093v1
- Date: Sun, 27 Apr 2025 03:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.127557
- Title: CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
- Title(参考訳): CipherBank:暗号化の課題を通じてLLM推論能力の境界を探る
- Authors: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu,
- Abstract要約: 暗号復号処理における大規模言語モデル(LLM)の推論能力を評価するために設計されたベンチマークであるCipherBankを紹介する。
我々は、CipherBank(例えば、GPT-4o、DeepSeek-V3、o1やDeepSeek-R1といった最先端の推論モデル)における最先端のLCMを評価した。
- 参考スコア(独自算出の注目度): 42.16123880046729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities, especially the recent advancements in reasoning, such as o1 and o3, pushing the boundaries of AI. Despite these impressive achievements in mathematics and coding, the reasoning abilities of LLMs in domains requiring cryptographic expertise remain underexplored. In this paper, we introduce CipherBank, a comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously crafted problems, covering 262 unique plaintexts across 5 domains and 14 subdomains, with a focus on privacy-sensitive and real-world scenarios that necessitate encryption. From a cryptographic perspective, CipherBank incorporates 3 major categories of encryption methods, spanning 9 distinct algorithms, ranging from classical ciphers to custom cryptographic techniques. We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results reveal significant gaps in reasoning abilities not only between general-purpose chat LLMs and reasoning-focused LLMs but also in the performance of current reasoning-focused models when applied to classical cryptographic decryption tasks, highlighting the challenges these models face in understanding and manipulating encrypted data. Through detailed analysis and error investigations, we provide several key observations that shed light on the limitations and potential improvement areas for LLMs in cryptographic reasoning. These findings underscore the need for continuous advancements in LLM reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に、o1やo3といった推論の最近の進歩によって、AIの境界を押し広げる顕著な能力を示している。
数学やコーディングにおけるこれらの顕著な業績にもかかわらず、暗号の専門知識を必要とする領域におけるLLMの推論能力はいまだに未解明のままである。
本稿では,暗号復号処理におけるLLMの推論能力を評価するための総合的なベンチマークであるCipherBankを紹介する。
CipherBankは、5つのドメインと14のサブドメインにわたる262のユニークなプレーンテキストをカバーし、暗号化を必要とするプライバシーに敏感で現実的なシナリオに重点を置いている。
暗号化の観点からは、CipherBankは古典的な暗号からカスタムの暗号技術まで、9つの異なるアルゴリズムにまたがる3つの主要な暗号化手法のカテゴリを取り入れている。
我々はCipherBank,eg,GPT-4o,DeepSeek-V3,o1やDeepSeek-R1といった最先端の推論モデルにおける最先端のLCMを評価した。
本研究は,従来の暗号復号処理において,汎用チャット LLM と推論型 LLM だけでなく,従来の推論型モデルの性能にも大きな差があることを示し,これらのモデルが暗号化データの理解と操作において直面する課題を浮き彫りにした。
詳細な分析と誤り調査を通じて、暗号推論におけるLLMの限界と潜在的な改善領域を暗示するいくつかの重要な観察結果を提供する。
これらの知見は, LLM推論能力の継続的な向上の必要性を浮き彫りにした。
関連論文リスト
- An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - Post-Quantum Homomorphic Encryption: A Case for Code-Based Alternatives [0.6749750044497732]
ホモモルフィック暗号化(HE)は、暗号化されたデータに対するセキュアでプライバシ保護された計算を可能にする。
現在のPQHEアルゴリズムのほとんどは格子ベースの問題によって保護されている。
コードベースの暗号化は、量子後アルゴリズムを多様化する新しい方法である。
論文 参考訳(メタデータ) (2025-03-28T06:49:22Z) - Cryptanalysis via Machine Learning Based Information Theoretic Metrics [58.96805474751668]
本稿では,機械学習アルゴリズムの新たな2つの応用法を提案する。
これらのアルゴリズムは、監査設定で容易に適用でき、暗号システムの堅牢性を評価することができる。
本稿では,DES,RSA,AES ECBなど,IND-CPAの安全でない暗号化スキームを高精度に識別する。
論文 参考訳(メタデータ) (2025-01-25T04:53:36Z) - Decoding Secret Memorization in Code LLMs Through Token-Level Characterization [6.92858396995673]
コード大言語モデル(LLM)は、プログラムコードの生成、理解、操作において顕著な能力を示した。
LLMは必然的に機密情報の記憶につながり、深刻なプライバシーリスクを生じさせる。
トークン確率に基づいて,コードLLMが生成した実・偽の秘密を特徴付ける新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T14:39:24Z) - CodeCipher: Learning to Obfuscate Source Code Against LLMs [5.872773591957006]
我々は,LLMからの応答を保存しながら,コードからプライバシを乱す新しい方法であるCodeCipherを提案する。
CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。
その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。
論文 参考訳(メタデータ) (2024-10-08T08:28:54Z) - A Machine Learning-Based Framework for Assessing Cryptographic Indistinguishability of Lightweight Block Ciphers [1.5953412143328967]
Indistinguishabilityは暗号セキュリティの基本原則であり、IoT(Internet of Things)デバイス間で送信されるデータの保護に不可欠である。
本研究では,暗号化システムにおける不明瞭性評価における機械学習(ML)の能力について検討する。
MIND-Cryptは、軽量ブロック暗号の暗号不一致性を評価するために設計されたMLベースの新しいフレームワークである。
論文 参考訳(メタデータ) (2024-05-30T04:40:13Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [85.18213923151717]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。
本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文 参考訳(メタデータ) (2023-08-12T04:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。