論文の概要: Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation
- arxiv url: http://arxiv.org/abs/2505.01065v1
- Date: Fri, 02 May 2025 07:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.943898
- Title: Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation
- Title(参考訳): スクリプトキディのための良いニュース : 自動エクスプロイト生成のための大規模言語モデルの評価
- Authors: David Jin, Qian Fu, Yuekang Li,
- Abstract要約: 大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を示し、自動エクスプロイト生成(AEG)の可能性への懸念を提起している。
本稿では, AEG における LLM の有効性に関する最初の体系的研究を行い, 協調性と技術能力の評価を行った。
- 参考スコア(独自算出の注目度): 6.776829305448693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in code-related tasks, raising concerns about their potential for automated exploit generation (AEG). This paper presents the first systematic study on LLMs' effectiveness in AEG, evaluating both their cooperativeness and technical proficiency. To mitigate dataset bias, we introduce a benchmark with refactored versions of five software security labs. Additionally, we design an LLM-based attacker to systematically prompt LLMs for exploit generation. Our experiments reveal that GPT-4 and GPT-4o exhibit high cooperativeness, comparable to uncensored models, while Llama3 is the most resistant. However, no model successfully generates exploits for refactored labs, though GPT-4o's minimal errors highlight the potential for LLM-driven AEG advancements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を示し、自動エクスプロイト生成(AEG)の可能性への懸念を高めている。
本稿では, AEG における LLM の有効性に関する最初の体系的研究を行い, 協調性と技術能力の評価を行った。
データセットバイアスを軽減するため、5つのソフトウェアセキュリティラボのリファクタリングされたバージョンでベンチマークを導入する。
さらに, LLMをベースとした攻撃者に対して, エクスプロイト生成のためのシステム的プロンプトを設計する。
実験の結果, GPT-4 と GPT-4o は無検閲モデルに匹敵する高い協調性を示し, Llama3 が最も耐性を示した。
しかしながら、GPT-4oの最小誤差は、LCM駆動のAEGの進歩の可能性を示しているが、リファクタリングされた研究所のエクスプロイトをうまく生成するモデルはない。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は、大規模言語モデルに固有の能力として自己補正を組み込む。
CoSCは一連の自己補正段階を通して機能する。
実験により、CoSCは標準的な数学的データセットの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-14T17:16:44Z) - How Well Do Large Language Models Serve as End-to-End Secure Code Producers? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。
4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。
修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文 参考訳(メタデータ) (2024-08-20T02:42:29Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。