Fugu-MT 論文翻訳(概要): Hacking CTFs with Plain Agents

論文の概要: Hacking CTFs with Plain Agents

arxiv url: http://arxiv.org/abs/2412.02776v1
Date: Tue, 03 Dec 2024 19:17:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.429355
Title: Hacking CTFs with Plain Agents
Title（参考訳）: プレーンエージェントによるCTFのハッキング
Authors: Rustem Turtayev, Artem Petrov, Dmitrii Volkov, Denis Volk,
Abstract要約: LLMエージェントを設計した高校レベルのハッキングベンチマークを飽和させた。攻撃的セキュリティベンチマークであるInterCode-CTFでは,プロンプト,ツール使用,複数試行によって95%のパフォーマンスが得られた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We saturate a high-school-level hacking benchmark with plain LLM agent design. Concretely, we obtain 95% performance on InterCode-CTF, a popular offensive security benchmark, using prompting, tool use, and multiple attempts. This beats prior work by Phuong et al. 2024 (29%) and Abramovich et al. 2024 (72%). Our results suggest that current LLMs have surpassed the high school level in offensive cybersecurity. Their hacking capabilities remain underelicited: our ReAct&Plan prompting strategy solves many challenges in 1-2 turns without complex engineering or advanced harnessing.
Abstract（参考訳）: LLMエージェントを設計した高校レベルのハッキングベンチマークを飽和させた。具体的には,攻撃的セキュリティベンチマークであるInterCode-CTFにおいて,プロンプト,ツール使用,複数試行を用いて95%のパフォーマンスを得る。これは、Phuong et al 2024 (29%) と Abramovich et al 2024 (72%) の先行研究に勝っている。以上の結果から,現在のLLMは攻撃的サイバーセキュリティにおいて,高校を抜いたことが示唆された。私たちのReAct&Plan戦略は、複雑なエンジニアリングや高度な活用なしに、1-2ターンで多くの課題を解決します。

関連論文リスト

AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses [66.87883360545361]
AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2025-03-03T18:39:48Z)
D-CIPHER: Dynamic Collaborative Intelligent Multi-Agent System with Planner and Heterogeneous Executors for Offensive Security [22.86304661035188]
D-CIPHERは、協調サイバーセキュリティCTF問題解決のためのマルチエージェントフレームワークである。エージェントと異なる役割を持つエージェントを動的フィードバックループに統合し、複雑なタスクの推論を強化する。 NYU CTF Benchでは22.0%、Cybenchでは22.5%、HackTheBoxでは44.0%である。
論文参考訳（メタデータ） (2025-02-15T23:43:18Z)
The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文参考訳（メタデータ） (2024-10-20T14:07:24Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Are Large Language Models a Threat to Programming Platforms? An Exploratory Study [2.304914644824781]
大規模言語モデル(LLM)は、様々な困難を伴う多様なプログラミング課題に対処する。本研究では,様々な難易度を持つプラットフォーム間の多様なプログラミング課題にLLMが取り組む能力について検討する。私たちはLeetCodeから98の問題、Codeforcesから126の問題を15のカテゴリでテストしました。
論文参考訳（メタデータ） (2024-09-09T17:30:20Z)
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。 Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。 Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文参考訳（メタデータ） (2024-07-03T07:14:05Z)
Fast Adversarial Attacks on Language Models In One GPU Minute [49.615024989416355]
我々は、言語モデル(LM)のための高速ビームサーチに基づく敵攻撃(BEAST)の新たなクラスを導入する。 BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性の間でバランスをとることができる。我々の勾配のない標的攻撃は、1分以内に高い攻撃成功率のLMをジェイルブレイクできる。
論文参考訳（メタデータ） (2024-02-23T19:12:53Z)
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文参考訳（メタデータ） (2024-02-17T06:48:45Z)
PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文参考訳（メタデータ） (2024-02-15T02:54:49Z)
LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文参考訳（メタデータ） (2023-10-17T17:15:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。