論文の概要: CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography
- arxiv url: http://arxiv.org/abs/2512.02625v1
- Date: Tue, 02 Dec 2025 10:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.830431
- Title: CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography
- Title(参考訳): CryptoQA: AI支援暗号のための大規模質問応答データセット
- Authors: Mayar Elfares, Pascal Reisert, Tilman Dietz, Manpa Barman, Ahmed Zaki, Ralf Küsters, Andreas Bulling,
- Abstract要約: 本稿では,暗号に特化して設計された,最初の大規模質問応答データセットであるCryptoQAを紹介する。
我々は、CryptoQAで15の最先端LCMをベンチマークし、実際の精度、数学的推論、一貫性、参照、対向サンプルに対する堅牢性を評価した。
以上の結果から LLM の性能は著しく低下しており,特に形式的推論や正確な数学的知識を必要とするタスクにおいて顕著であることがわかった。
- 参考スコア(独自算出の注目度): 13.643089244089873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) excel at many general-purpose natural language processing tasks. However, their ability to perform deep reasoning and mathematical analysis, particularly for complex tasks as required in cryptography, remains poorly understood, largely due to the lack of suitable data for evaluation and training. To address this gap, we present CryptoQA, the first large-scale question-answering (QA) dataset specifically designed for cryptography. CryptoQA contains over two million QA pairs drawn from curated academic sources, along with contextual metadata that can be used to test the cryptographic capabilities of LLMs and to train new LLMs on cryptographic tasks. We benchmark 15 state-of-the-art LLMs on CryptoQA, evaluating their factual accuracy, mathematical reasoning, consistency, referencing, backward reasoning, and robustness to adversarial samples. In addition to quantitative metrics, we provide expert reviews that qualitatively assess model outputs and establish a gold-standard baseline. Our results reveal significant performance deficits of LLMs, particularly on tasks that require formal reasoning and precise mathematical knowledge. This shows the urgent need for LLM assistants tailored to cryptography research and development. We demonstrate that, by using CryptoQA, LLMs can be fine-tuned to exhibit better performance on cryptographic tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの汎用自然言語処理タスクに優れる。
しかし、深い推論と数学的解析を行う能力、特に暗号で必要とされる複雑なタスクについては、主に評価と訓練に適したデータが欠如しているため、理解が不十分なままである。
このギャップに対処するため、暗号に特化して設計された最初の大規模質問応答(QA)データセットであるCryptoQAを提案する。
CryptoQAには、キュレートされた学術資料から得られた200万以上のQAペアに加えて、LLMの暗号能力をテストしたり、暗号タスクで新しいLLMをトレーニングするために使用できるコンテキストメタデータが含まれている。
我々は、CryptoQAで15の最先端LCMをベンチマークし、その事実の正確性、数学的推論、一貫性、参照、後方推論、敵のサンプルに対する堅牢性を評価した。
定量的な指標に加えて、モデルの出力を質的に評価し、ゴールドスタンダードのベースラインを確立する専門家のレビューも提供する。
以上の結果から LLM の性能は著しく低下しており,特に形式的推論や正確な数学的知識を必要とするタスクにおいて顕著であることがわかった。
このことは、暗号の研究と開発に適したLLMアシスタントが緊急に必要であることを示している。
我々は、CryptoQAを用いることで、LLMを微調整して、より優れた性能を示すことができることを示した。
関連論文リスト
- CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models [31.974963309762913]
AICryptoは、大規模言語モデルの暗号能力を評価するために設計された最初の包括的なベンチマークである。
ベンチマークは135の多重選択質問、150のキャプチャー・ザ・フラッグ課題、18の証明問題で構成されている。
LLMをリードする17のモデルの評価は、最先端のモデルが暗号概念を記憶する上で、人間の専門家と一致しているか、さらに上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-13T11:11:01Z) - CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges [42.16123880046729]
暗号復号処理における大規模言語モデル(LLM)の推論能力を評価するために設計されたベンチマークであるCipherBankを紹介する。
我々は、CipherBank(例えば、GPT-4o、DeepSeek-V3、o1やDeepSeek-R1といった最先端の推論モデル)における最先端のLCMを評価した。
論文 参考訳(メタデータ) (2025-04-27T03:41:17Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。