論文の概要: Prompt to Pwn: Automated Exploit Generation for Smart Contracts
- arxiv url: http://arxiv.org/abs/2508.01371v1
- Date: Sat, 02 Aug 2025 13:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.846292
- Title: Prompt to Pwn: Automated Exploit Generation for Smart Contracts
- Title(参考訳): Prompt to Pwn:スマートコントラクトのための自動エクスプロイト生成
- Authors: Zeke Xiao, Yuekang Li, Qin Wang, Shiping Chen,
- Abstract要約: LLMベースのエクスプロイト合成をFoundryテストスイートに統合するフレームワークであるtextscReXを提案する。
我々は、既知のハイインパクトエクスプロイトの影響を受け、合成ベンチマークと実世界のスマートコントラクトの両方で、最先端の5つのLCMを評価した。
以上の結果から,現代のLLMでは,さまざまな脆弱性タイプに対して,機能的なPoCエクスプロイトを確実に生成することが可能であり,成功率は最大92%に達することが示唆された。
- 参考スコア(独自算出の注目度): 7.808685501356819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the feasibility of using LLMs for Automated Exploit Generation (AEG) against vulnerable smart contracts. We present \textsc{ReX}, a framework integrating LLM-based exploit synthesis with the Foundry testing suite, enabling the automated generation and validation of proof-of-concept (PoC) exploits. We evaluate five state-of-the-art LLMs (GPT-4.1, Gemini 2.5 Pro, Claude Opus 4, DeepSeek, and Qwen3 Plus) on both synthetic benchmarks and real-world smart contracts affected by known high-impact exploits. Our results show that modern LLMs can reliably generate functional PoC exploits for diverse vulnerability types, with success rates reaching up to 92\%. Notably, Gemini 2.5 Pro and GPT-4.1 consistently outperform others in both synthetic and real-world scenarios. We further analyze factors influencing AEG effectiveness, including model capabilities, contract structure, and vulnerability types. We also collect the first curated dataset of real-world PoC exploits to support future research.
- Abstract(参考訳): 脆弱なスマートコントラクトに対して,LLMs for Automated Exploit Generation (AEG)の適用の可能性を検討する。
LLMベースのエクスプロイト合成を Foundry テストスイートに統合したフレームワークである \textsc{ReX} を提示し,概念実証(PoC)エクスプロイトの自動生成と検証を可能にする。
合成ベンチマークと実世界のスマートコントラクトの両方において,5つの最先端LCM(GPT-4.1,Gemini 2.5 Pro,Claude Opus 4,DeepSeek,Qwen3 Plus)を評価した。
以上の結果から,現代のLLMでは,多種多様な脆弱性に対して,機能的なPoCエクスプロイトを確実に生成することが可能であり,成功率は最大92%に達することが示唆された。
特に、Gemini 2.5 Pro と GPT-4.1 は、合成と現実の両方のシナリオにおいて、他より一貫して優れていた。
さらに、モデル機能、契約構造、脆弱性タイプなど、AIGの有効性に影響を与える要因を分析します。
また、将来の研究を支援するために、現実世界のPoCエクスプロイトの最初のキュレートされたデータセットを収集します。
関連論文リスト
- Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation [6.776829305448693]
大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を示し、自動エクスプロイト生成(AEG)の可能性への懸念を提起している。
本稿では, AEG における LLM の有効性に関する最初の体系的研究を行い, 協調性と技術能力の評価を行った。
論文 参考訳(メタデータ) (2025-05-02T07:15:22Z) - AiRacleX: Automated Detection of Price Oracle Manipulations via LLM-Driven Knowledge Mining and Prompt Generation [30.312011441118194]
分散金融アプリケーションは、安全な取引を確保するために正確な価格保証に依存している。
プライスオラクルは操作に非常に脆弱で、攻撃者はスマートコントラクトの脆弱性を悪用することができる。
本稿では,価格変動の検知を自動化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T10:58:09Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing [0.0]
本稿では,Large Language Model (LLM) をベースとした,自律的な浸透試験が可能なエージェントであるHack Synthを紹介する。
Hack Synthをベンチマークするために、人気のあるプラットフォームであるPicoCTFとOverTheWireを利用する2つの新しいCapture The Flag(CTF)ベースのベンチマークセットを提案する。
論文 参考訳(メタデータ) (2024-12-02T18:28:18Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - LLM Agents can Autonomously Exploit One-day Vulnerabilities [2.3999111269325266]
LLMエージェントは現実世界のシステムにおいて,1日の脆弱性を自律的に悪用できることを示す。
我々の GPT-4 エージェントは高性能に CVE 記述を必要とする。
以上の結果から,高能率LLMエージェントの広範な展開に関する疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2024-04-11T22:07:19Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。
本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。
我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。