論文の概要: Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges
- arxiv url: http://arxiv.org/abs/2506.02048v1
- Date: Sun, 01 Jun 2025 01:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.875129
- Title: Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges
- Title(参考訳): 暗号CTFチャレンジにおける強化学習によるLLMエージェントの改良
- Authors: Lajos Muzsai, David Imolai, András Lukács,
- Abstract要約: random-crypto"は暗号のCapture-the-Flagチャレンジジェネレータフレームワークである。
ツール強化されたLlama-3.1-8Bをガイド強化プロンプト最適化で微調整するために使用される。
Pass@8では、"random-crypto"タスクに対して、+53%の絶対的なジャンプが得られます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) still struggle with the structured reasoning and tool-assisted computation needed for problem solving in cybersecurity applications. In this work, we introduce "random-crypto", a cryptographic Capture-the-Flag (CTF) challenge generator framework that we use to fine-tune a tool-augmented Llama-3.1-8B with Guided Reinforcement Prompt Optimisation (GRPO), allowing the agent to iteratively write and execute Python inside an isolated REPL. GRPO yields a +53% absolute jump in Pass@8 on unseen "random-crypto" tasks (0.35 -> 0.88) and raises Majority@8 to 0.41. The fine-tuned agent also generalizes to an external dataset. On a subset of picoCTF cryptography problems, it improves Pass@8 by +13 pp. Ablations show the gains stem from more reliable tool invocation and code synthesis, rather than superficial prompt adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、サイバーセキュリティアプリケーションにおける問題解決に必要な構造化推論とツール支援計算に依然として苦戦している。
本稿では,ツールを拡張したLlama-3.1-8Bをガイド強化プロンプト最適化(GRPO)で微調整するために使用する,CTF(Capture-the-Flag)チャレンジジェネレータフレームワークである"random-crypto"を紹介し,エージェントが分離されたREPL内でPythonを反復的に書き実行できるようにする。
GRPOは、"random-crypto"タスク(0.35 -> 0.88)でPass@8を+53%の絶対ジャンプし、Majority@8を0.41に引き上げる。
微調整エージェントも外部データセットに一般化する。
picoCTF暗号問題のサブセットでは、Pass@8を+13 pp.で改善する。
アブレーションは、表面的なプロンプト適応よりも、より信頼性の高いツール呼び出しとコード合成に起因していることを示している。
関連論文リスト
- Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity [4.458584890504334]
コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。
近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-18T18:29:23Z) - TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。
マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。
この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文 参考訳(メタデータ) (2025-03-15T17:57:44Z) - QuanCrypt-FL: Quantized Homomorphic Encryption with Pruning for Secure Federated Learning [0.48342038441006796]
我々は,攻撃に対する防御を強化するために,低ビット量子化とプルーニング技術を組み合わせた新しいアルゴリズムQuanCrypt-FLを提案する。
我々は、MNIST、CIFAR-10、CIFAR-100データセットに対するアプローチを検証し、最先端手法と比較して優れた性能を示す。
QuanCrypt-FLは、最大9倍高速暗号化、16倍高速復号化、1.5倍高速推論を実現し、トレーニング時間を最大3倍短縮する。
論文 参考訳(メタデータ) (2024-11-08T01:46:00Z) - From Solitary Directives to Interactive Encouragement! LLM Secure Code Generation by Natural Language Prompting [24.27542373791212]
SecCodeは、テキストのみのNLプロンプトでセキュアなコード生成のために、革新的なインタラクティブな励ましプロンプト(EP)技術を活用するフレームワークである。
1) NL Prompts を用いたコード生成,2) コード脆弱性の検出と修正,提案したプロモーションプロンプトの利用,3) 脆弱性のクロスチェッキングとコードセキュリティリファインメント。
論文 参考訳(メタデータ) (2024-10-18T09:32:08Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。