論文の概要: LLM Agents can Autonomously Hack Websites
- arxiv url: http://arxiv.org/abs/2402.06664v3
- Date: Fri, 16 Feb 2024 04:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 12:48:43.648075
- Title: LLM Agents can Autonomously Hack Websites
- Title(参考訳): LLMエージェントはウェブサイトを自動ハックできる
- Authors: Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, Daniel Kang
- Abstract要約: 大規模言語モデル(LLM)がエージェントとして自律的に機能することを示す。
本研究では,LLMエージェントがWebサイトを自律的にハックできることを示す。
また、GPT-4は、野生のウェブサイトの脆弱性を自律的に発見できることも示している。
- 参考スコア(独自算出の注目度): 3.5248694676821484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have become increasingly
capable and can now interact with tools (i.e., call functions), read documents,
and recursively call themselves. As a result, these LLMs can now function
autonomously as agents. With the rise in capabilities of these agents, recent
work has speculated on how LLM agents would affect cybersecurity. However, not
much is known about the offensive capabilities of LLM agents.
In this work, we show that LLM agents can autonomously hack websites,
performing tasks as complex as blind database schema extraction and SQL
injections without human feedback. Importantly, the agent does not need to know
the vulnerability beforehand. This capability is uniquely enabled by frontier
models that are highly capable of tool use and leveraging extended context.
Namely, we show that GPT-4 is capable of such hacks, but existing open-source
models are not. Finally, we show that GPT-4 is capable of autonomously finding
vulnerabilities in websites in the wild. Our findings raise questions about the
widespread deployment of LLMs.
- Abstract(参考訳): 近年、大きな言語モデル(LLM)はますます能力を高め、ツール(例えば関数を呼び出す)と対話し、文書を読み、再帰的に自身を呼び出すことができるようになった。
結果として、これらのLSMはエージェントとして自律的に機能する。
これらのエージェントの能力の増大に伴い、最近の研究はLLMエージェントがサイバーセキュリティにどのように影響するかを推測している。
しかし、LSM剤の攻撃能力についてはあまり知られていない。
本研究では, LLMエージェントがWebサイトを自律的にハックし, 視覚的データベーススキーマ抽出やSQLインジェクションのように複雑なタスクを人間のフィードバックなしに実行できることを示す。
重要なのは、エージェントが事前に脆弱性を知る必要がないことだ。
この機能は、ツールの使用と拡張コンテキストの活用を高度に有能なフロンティアモデルによって独特に実現されている。
すなわち、GPT-4はそのようなハックが可能であるが、既存のオープンソースモデルはそうではない。
最後に、gpt-4は野生のウェブサイトの脆弱性を自律的に発見できることを示した。
本研究は, LLMの広範な展開について疑問を投げかけるものである。
関連論文リスト
- When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs [26.2943792874156]
個人データを含むサイバー攻撃における大規模言語モデル(LLM)の誤用に関連するリスクについて検討する。
具体的には,サイバーアタックの実施を指示されたLLMエージェントがいかに強力かを理解することを目的としている。
本稿では,PII(Personally Identible Information)の収集,偽造投稿の生成,スピアフィッシングメールの作成の3つの攻撃シナリオについて検討する。
論文 参考訳(メタデータ) (2024-10-18T16:16:34Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Teams of LLM Agents can Exploit Zero-Day Vulnerabilities [3.2855317710497625]
LLMエージェントのチームが実世界のゼロデイ脆弱性を悪用できることを示します。
我々は,サブエージェントを起動可能な計画エージェントを備えたエージェントシステムHPTSAを紹介する。
我々は15の現実世界の脆弱性のベンチマークを構築し、エージェントのチームが以前の作業よりも4.5$times$で改善できることを示します。
論文 参考訳(メタデータ) (2024-06-02T16:25:26Z) - AGILE: A Novel Reinforcement Learning Framework of LLM Agents [7.982249117182315]
本稿では,ユーザとの複雑な対話処理を実現するために,LLMエージェントの強化学習フレームワークを提案する。
エージェントは、リフレクション、ツールの使用、専門家の相談など、会話以外の能力を持っている。
実験の結果, PPOで訓練した7Bおよび13B LLMをベースとしたAGILEは, GPT-4エージェントより優れていた。
論文 参考訳(メタデータ) (2024-05-23T16:17:44Z) - LLM Agents can Autonomously Exploit One-day Vulnerabilities [2.3999111269325266]
LLMエージェントは現実世界のシステムにおいて,1日の脆弱性を自律的に悪用できることを示す。
我々の GPT-4 エージェントは高性能に CVE 記述を必要とする。
以上の結果から,高能率LLMエージェントの広範な展開に関する疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2024-04-11T22:07:19Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。