論文の概要: Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges
- arxiv url: http://arxiv.org/abs/2506.02048v2
- Date: Sun, 17 Aug 2025 22:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.008275
- Title: Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges
- Title(参考訳): 暗号CTFチャレンジにおける強化学習によるLLMエージェントの改良
- Authors: Lajos Muzsai, David Imolai, András Lukács,
- Abstract要約: 「ランダム・クリプト」は、強化学習の可能性を解き放つために、手続き的に生成された暗号データセットである。
Llama-3.1-8B の Python ツールを Group Relative Policy Optimization 経由で微調整する。
その結果得られたエージェントは、これまで見つからなかった課題に対して、Pass@8で大幅に改善される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present 'Random-Crypto', a procedurally generated cryptographic Capture The Flag (CTF) dataset designed to unlock the potential of Reinforcement Learning (RL) for LLM-based agents in security-sensitive domains. Cryptographic reasoning offers an ideal RL testbed: it combines precise validation, structured multi-step inference, and reliance on reliable computational tool use. Leveraging these properties, we fine-tune a Python tool-augmented Llama-3.1-8B via Group Relative Policy Optimization (GRPO) in a secure execution environment. The resulting agent achieves a significant improvement in Pass@8 on previously unseen challenges. Moreover, the improvements generalize to two external benchmarks: 'picoCTF', spanning both crypto and non-crypto tasks, and 'AICrypto MCQ', a multiple-choice benchmark of 135 cryptography questions. Ablation studies attribute the gains to enhanced tool usage and procedural reasoning. These findings position 'Random-Crypto' as a rich training ground for building intelligent, adaptable LLM agents capable of handling complex cybersecurity tasks.
- Abstract(参考訳): セキュリティに敏感なドメインにおけるLLMベースのエージェントに対する強化学習(RL)の可能性を確保するために,手続き的に生成された暗号キャプチャー・ザ・フラッグ(CTF)データセットである「ランサム・クリプト(Random-Crypto)」を提案する。
暗号推論は、正確な検証、構造化されたマルチステップ推論、信頼性の高い計算ツールの使用への依存を組み合わせた理想的なRLテストベッドを提供する。
これらの特性を活用することで、セキュアな実行環境において、グループ相対ポリシー最適化(GRPO)を介してPythonツールで強化されたLlama-3.1-8Bを微調整する。
その結果得られたエージェントは、これまで見つからなかった課題に対して、Pass@8で大幅に改善される。
さらにこの改良は、暗号処理と非暗号処理の両方にまたがる 'picoCTF' と、135の暗号問題からなる多重選択ベンチマーク 'AICrypto MCQ' の2つの外部ベンチマークに一般化されている。
アブレーション研究は、ツールの使用量の増加と手続き的推論に起因している。
これらの知見は「ランサムクリプト」を、複雑なサイバーセキュリティタスクを処理できるインテリジェントで適応可能なLLMエージェントを構築するためのリッチなトレーニング場として位置づけている。
関連論文リスト
- AICrypto: A Comprehensive Benchmark For Evaluating Cryptography Capabilities of Large Language Models [18.222665072623755]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な機能を示している。
本ベンチマークでは, 複数選択質問135件, キャプチャー・ザ・フラッグ(CTF)150件, 証明問題18件からなる。
LLMをリードする17のモデルの評価は、最先端のモデルが暗号概念を記憶する上で、人間の専門家と一致しているか、さらに上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-13T11:11:01Z) - Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity [4.458584890504334]
コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。
近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-18T18:29:23Z) - TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。
マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。
この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文 参考訳(メタデータ) (2025-03-15T17:57:44Z) - QuanCrypt-FL: Quantized Homomorphic Encryption with Pruning for Secure Federated Learning [0.48342038441006796]
我々は,攻撃に対する防御を強化するために,低ビット量子化とプルーニング技術を組み合わせた新しいアルゴリズムQuanCrypt-FLを提案する。
我々は、MNIST、CIFAR-10、CIFAR-100データセットに対するアプローチを検証し、最先端手法と比較して優れた性能を示す。
QuanCrypt-FLは、最大9倍高速暗号化、16倍高速復号化、1.5倍高速推論を実現し、トレーニング時間を最大3倍短縮する。
論文 参考訳(メタデータ) (2024-11-08T01:46:00Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - From Solitary Directives to Interactive Encouragement! LLM Secure Code Generation by Natural Language Prompting [24.27542373791212]
SecCodeは、テキストのみのNLプロンプトでセキュアなコード生成のために、革新的なインタラクティブな励ましプロンプト(EP)技術を活用するフレームワークである。
1) NL Prompts を用いたコード生成,2) コード脆弱性の検出と修正,提案したプロモーションプロンプトの利用,3) 脆弱性のクロスチェッキングとコードセキュリティリファインメント。
論文 参考訳(メタデータ) (2024-10-18T09:32:08Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。