論文の概要: Automatic Generation of a Cryptography Misuse Taxonomy Using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.10814v1
- Date: Sat, 13 Sep 2025 14:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.791322
- Title: Automatic Generation of a Cryptography Misuse Taxonomy Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた誤分類の自動生成
- Authors: Yang Zhang, Wenyi Ouyang, Yi Zhang, Liang Cheng, Chen Wu, Wenxin Hu,
- Abstract要約: 暗号化APIの誤用は、暗号の有効性を損なう。
CAM検出ツールの開発に多大な努力を払っているにもかかわらず、これらのツールは典型的には人為的な知識から定義された限定的なルールに頼っている。
我々は,公開暗号関連データに基づいて訓練された大規模言語モデル(LLM)を利用して,実世界のコードでCAMを自動的に検出・分類する手法を提案する。
- 参考スコア(独自算出の注目度): 9.931896344576465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The prevalence of cryptographic API misuse (CAM) is compromising the effectiveness of cryptography and in turn the security of modern systems and applications. Despite extensive efforts to develop CAM detection tools, these tools typically rely on a limited set of predefined rules from human-curated knowledge. This rigid, rule-based approach hinders adaptation to evolving CAM patterns in real practices. We propose leveraging large language models (LLMs), trained on publicly available cryptography-related data, to automatically detect and classify CAMs in real-world code to address this limitation. Our method enables the development and continuous expansion of a CAM taxonomy, supporting developers and detection tools in tracking and understanding emerging CAM patterns. Specifically, we develop an LLM-agnostic prompt engineering method to guide LLMs in detecting CAM instances from C/C++, Java, Python, and Go code, and then classifying them into a hierarchical taxonomy. Using a data set of 3,492 real-world software programs, we demonstrate the effectiveness of our approach with mainstream LLMs, including GPT, Llama, Gemini, and Claude. It also allows us to quantitatively measure and compare the performance of these LLMs in analyzing CAM in realistic code. Our evaluation produced a taxonomy with 279 base CAM categories, 36 of which are not addressed by existing taxonomies. To validate its practical value, we encode 11 newly identified CAM types into detection rules and integrate them into existing tools. Experiments show that such integration expands the tools' detection capabilities.
- Abstract(参考訳): 暗号API誤用(CAM)の流行は、暗号の有効性を妥協し、現代のシステムやアプリケーションのセキュリティを損なう。
CAM検出ツールの開発に多大な努力を払っているにもかかわらず、これらのツールは典型的には人為的な知識から定義された限定的なルールに頼っている。
この厳格なルールベースのアプローチは、実際のプラクティスにおけるCAMパターンの進化を妨げる。
我々は,公開暗号関連データに基づいて訓練された大規模言語モデル(LLM)を利用して,実世界のコードにおけるCAMを自動的に検出・分類し,この制限に対処することを提案する。
提案手法は,CAMの分類学の発展と継続的な拡張を可能にし,新たなCAMパターンの追跡と理解において,開発者と検出ツールを支援する。
具体的には, C/C++, Java, Python, Go コードからの CAM インスタンスの検出において LLM を誘導する LLM に依存しないプロンプトエンジニアリング手法を開発し,それらを階層的な分類に分類する。
実世界の3,492のソフトウェアプログラムのデータセットを用いて、GPT、Llama、Gemini、Claudeを含む主要なLCMを用いて、我々のアプローチの有効性を実証する。
また、現実的なコードにおけるCAMの分析において、これらのLCMの性能を定量的に測定し、比較することができる。
評価の結果,279のCAM分類群があり,その内36は既存の分類群では対応していない。
実用価値を検証するため,新たに識別された11のCAM型を検出ルールにエンコードし,既存のツールに統合した。
実験では、そのような統合がツールの検出能力を拡大することを示している。
関連論文リスト
- Identifying and Mitigating API Misuse in Large Language Models [26.4403427473915]
大規模言語モデル(LLM)が生成するコードのAPI誤用は、ソフトウェア開発において深刻な課題となっている。
本稿では LLM 生成コードにおける API の誤用パターンについて,Python および Java 間でのメソッド選択とパラメータ使用法の両方を解析し,総合的研究を行った。
上記の分類に基づくAPI誤用に対する新しいLCMベースの自動プログラム修復手法であるDr.Fixを提案する。
論文 参考訳(メタデータ) (2025-03-28T18:43:12Z) - CodeVision: Detecting LLM-Generated Code Using 2D Token Probability Maps and Vision Models [28.711745671275477]
大規模言語モデル(LLM)の台頭により、自動コード生成が大幅に改善され、ソフトウェア開発の効率が向上した。
事前訓練されたモデルや透かしなどの既存の検出方法は、適応性と計算効率の制限に直面している。
本稿では,視覚モデルと組み合わせた2次元トークン確率マップを用いた新しい検出手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T06:15:10Z) - Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - Exploit CAM by itself: Complementary Learning System for Weakly
Supervised Semantic Segmentation [59.24824050194334]
本稿では,CLS(Complementary Learning System)というエージェント学習における興味深い作業機構について述べる。
このシンプルだが効果的な学習パターンを動機として,汎用学習機構(GSLM)を提案する。
汎用学習モジュール(GLM)と特定学習モジュール(SLM)を開発するGSLM
論文 参考訳(メタデータ) (2023-03-04T16:16:47Z) - TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos [22.271760669551817]
弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T21:20:34Z) - F-CAM: Full Resolution CAM via Guided Parametric Upscaling [20.609010268320013]
クラスアクティベーションマッピング(CAM)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに多くの注目を集めている。
CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。
完全分解能CAMを高精度に構築できるCAMのパラメトリックアップスケーリング法を提案する。
論文 参考訳(メタデータ) (2021-09-15T04:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。