Fugu-MT 論文翻訳(概要): LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks

論文の概要: LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks

arxiv url: http://arxiv.org/abs/2310.11409v4
Date: Thu, 1 Aug 2024 06:42:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 14:55:39.153193
Title: LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks
Title（参考訳）: ハッカーとしてのLLM: 自律的なLinuxPrivategeエスカレーション攻撃
Authors: Andreas Happe, Aaron Kaplan, Juergen Cito,
Abstract要約: 言語モデル(LLM)と浸透試験の共通点について検討する。本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Penetration testing, an essential component of software security testing, allows organizations to identify and remediate vulnerabilities in their systems, thus bolstering their defense mechanisms against cyberattacks. One recent advancement in the realm of penetration testing is the utilization of Language Models (LLMs). We explore the intersection of LLMs and penetration testing to gain insight into their capabilities and challenges in the context of privilege escalation. We introduce a fully automated privilege-escalation tool designed for evaluating the efficacy of LLMs for (ethical) hacking, executing benchmarks using multiple LLMs, and investigating their respective results. Our results show that GPT-4-turbo is well suited to exploit vulnerabilities (33-83% of vulnerabilities). GPT-3.5-turbo can abuse 16-50% of vulnerabilities, while local models, such as Llama3, can only exploit between 0 and 33% of the vulnerabilities. We analyze the impact of different context sizes, in-context learning, optional high-level guidance mechanisms, and memory management techniques. We discuss challenging areas for LLMs, including maintaining focus during testing, coping with errors, and finally comparing LLMs with human hackers. The current version of the LLM-guided privilege-escalation prototype can be found at https://github.com/ipa-labs/hackingBuddyGPT.
Abstract（参考訳）: ソフトウェアセキュリティテストの不可欠なコンポーネントである浸透テストは、組織がシステムの脆弱性を特定して修正し、サイバー攻撃に対する防御メカニズムを強化することを可能にする。浸透試験の領域における最近の進歩の1つは言語モデル(LLM)の利用である。 LLMと浸透試験の交差点を探索し、特権拡大の文脈におけるそれらの能力と課題について考察する。倫理的)ハッキングにおけるLSMの有効性を評価し,複数のLSMを用いてベンチマークを実行し,それぞれの結果を調べるために,完全に自動化された特権エスカレーションツールを提案する。その結果,GPT-4-turboは脆弱性(脆弱性の33～83%)を悪用するのに適していることがわかった。 GPT-3.5-turboは脆弱性の16～50%を悪用するが、Llama3のようなローカルモデルは脆弱性の0～33%しか利用できない。我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルガイダンス機構,メモリ管理技術の影響を分析する。テスト中のフォーカスの維持、エラーへの対処、最終的にLLMと人間のハッカーの比較など、LLMの課題領域について論じる。 LLM誘導型特権エスカレーションプロトタイプの現在のバージョンはhttps://github.com/ipa-labs/hackingBuddyGPTにある。

関連論文リスト

LLM Robustness Leaderboard v1 --Technical report [0.0]
このレポートは、PRISM Eval氏がParis AI Action Summitで発表した、堅牢性 LLM リーダボードを伴っている。 PRISM Eval Behavior Elicitation Tool (BET)を導入する。有害な行動を誘発するために必要な平均試行回数を推定し,攻撃困難度が普遍的脆弱性にもかかわらず,300倍以上に変化することを示す。
論文参考訳（メタデータ） (2025-08-08T13:15:40Z)
Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6389862916575275]
新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文参考訳（メタデータ） (2025-02-09T14:51:15Z)
Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks [1.3124479769761592]
本稿では,Large Language Model (LLM) 駆動自律システムを用いた新しいプロトタイプを提案する。我々のシステムは、完全に自律的でLLM駆動のフレームワークがアカウントを妥協できる最初の実演である。関連するコストは、プロフェッショナルな人間のペンテスト担当者によって引き起こされるコストと競合し、しばしばかなり低いことが分かりました。
論文参考訳（メタデータ） (2025-02-06T17:12:43Z)
Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文参考訳（メタデータ） (2025-02-03T18:59:01Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
LLM4CVE: Enabling Iterative Automated Vulnerability Repair with Large Language Models [9.946058168276744]
大規模言語モデル(LLM)は、多くのソフトウェア欠陥が自動的にパッチを当てられる可能性を開放した。実世界のコードで脆弱な関数を高い精度で堅牢に修正する反復パイプラインを提案する。また,Llama 370Bでは,人間の検証による品質スコアが8.51/10,Llama 370Bでは20%に向上した。
論文参考訳（メタデータ） (2025-01-07T00:21:42Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
論文参考訳（メタデータ） (2024-10-22T16:18:41Z)
Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection [11.13802281700894]
静的アプリケーションセキュリティテスト(SAST)は通常、セキュリティ脆弱性のソースコードをスキャンするために使用される。ディープラーニング(DL)ベースの手法は、ソフトウェア脆弱性検出の可能性を実証している。本稿では,ソフトウェア脆弱性を検出するために,15種類のSASTツールと12種類の最先端のオープンソースLLMを比較した。
論文参考訳（メタデータ） (2024-07-23T07:21:14Z)
Automated Progressive Red Teaming [38.723546092060666]
手動のレッドチーム化は時間がかかり、コストがかかり、スケーラビリティが欠如しています。我々は,効果的に学習可能なフレームワークとして,APRT(Automated Progressive Red Teaming)を提案する。 APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、敵のプロンプトを製作するインテンションハイディングLDM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。
論文参考訳（メタデータ） (2024-07-04T12:14:27Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
LLM Agents can Autonomously Exploit One-day Vulnerabilities [2.3999111269325266]
LLMエージェントは現実世界のシステムにおいて,1日の脆弱性を自律的に悪用できることを示す。我々の GPT-4 エージェントは高性能に CVE 記述を必要とする。以上の結果から,高能率LLMエージェントの広範な展開に関する疑問が浮かび上がっている。
論文参考訳（メタデータ） (2024-04-11T22:07:19Z)
LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning [20.463200377413255]
脆弱性推論機能を分離し評価する統合評価フレームワークを導入する。私たちは、Solidity、Java、C/C++で147の地道的脆弱性と147の非脆弱性ケースを使用して実験を行い、合計3,528のシナリオでそれらをテストしました。本研究は,知識強化,文脈補充,即時的スキームの様々な影響を明らかにするものである。
論文参考訳（メタデータ） (2024-01-29T14:32:27Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。 GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文参考訳（メタデータ） (2023-08-20T19:33:12Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。