論文の概要: Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs
- arxiv url: http://arxiv.org/abs/2509.02372v2
- Date: Thu, 02 Oct 2025 20:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.862303
- Title: Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs
- Title(参考訳): Scam2Prompt: プロダクションLLMにおける悪意ある詐欺エンドポイントを監査するためのスケーラブルなフレームワーク
- Authors: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long,
- Abstract要約: Scam2Promptは、詐欺サイトの基礎となる意図を特定し、その意図を反映した開発者スタイルのプロンプトを合成するフレームワークである。
大規模な調査では、Scam2Promptの無害なプロンプトが4.24%のケースで悪意のあるURL生成を引き起こした。
脆弱性は存在するだけでなく、深刻なものであり、悪意のあるコード生成率は12.7%から43.8%であることがわかった。
- 参考スコア(独自算出の注目度): 10.658912369378617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become critical to modern software development, but their reliance on uncurated web-scale datasets for training introduces a significant security risk: the absorption and reproduction of malicious content. To systematically evaluate this risk, we introduce Scam2Prompt, a scalable automated auditing framework that identifies the underlying intent of a scam site and then synthesizes innocuous, developer-style prompts that mirror this intent, allowing us to test whether an LLM will generate malicious code in response to these innocuous prompts. In a large-scale study of four production LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout, and DeepSeek-V3), we found that Scam2Prompt's innocuous prompts triggered malicious URL generation in 4.24% of cases. To test the persistence of this security risk, we constructed Innoc2Scam-bench, a benchmark of 1,559 innocuous prompts that consistently elicited malicious code from all four initial LLMs. When applied to seven additional production LLMs released in 2025, we found the vulnerability is not only present but severe, with malicious code generation rates ranging from 12.7% to 43.8%. Furthermore, existing safety measures like state-of-the-art guardrails proved insufficient to prevent this behavior, with an overall detection rate of less than 0.3%.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代のソフトウェア開発において重要になっているが、トレーニングのための未処理のWebスケールデータセットへの依存は、悪意のあるコンテンツの吸収と再現という、重大なセキュリティリスクをもたらす。
このリスクを体系的に評価するために、スケーラブルな自動監査フレームワークであるScam2Promptを紹介します。これは、詐欺サイトの基礎となる意図を特定し、その意図を反映した無害な開発者スタイルのプロンプトを合成し、これらの無害なプロンプトに応答してLLMが悪意のあるコードを生成するかどうかをテストする。
4つのLLM(GPT-4o,GPT-4o-mini,Llama-4-Scout,DeepSeek-V3)を大規模に調査した結果,Scam2Promptの無害なプロンプトが4.24%の症例で悪質なURL生成を引き起こしていることがわかった。
Innoc2Scam-benchは1,559個の無害なプロンプトのベンチマークで、4つの初期LLMから悪意のあるコードを一貫して引き出す。
2025年にリリースされた7つの追加のLLMに適用すると、脆弱性は存在するだけでなく深刻であり、悪意のあるコード生成率は12.7%から43.8%であることがわかった。
さらに、最先端のガードレールのような既存の安全対策は、全体的な検出率は0.3%未満であり、この行動を防ぐには不十分であった。
関連論文リスト
- Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak [27.520381454182147]
本研究では,アルゴリズムの自動設計における大規模言語モデル(LLM)の安全性について検討する。
悪質な最適化アルゴリズム要求60件からなるベンチマークであるMalOptBenchを紹介し,MOBjailbreakを提案する。
このような攻撃に対して、ほとんどのモデルは高い影響を受けており、攻撃成功率は平均83.59%であり、元の有害なプロンプトでは5つ中4.28点である。
論文 参考訳(メタデータ) (2026-01-01T05:14:32Z) - Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security [0.0]
大規模言語モデル(LLM)は、ネイティブコードインタプリタを統合し、リアルタイム実行機能を実現する。
これらの統合は、システムレベルのサイバーセキュリティの脅威をもたらす可能性がある。
本稿では、CPU、メモリ、ディスクリソースの枯渇をターゲットとした1,260プロンプトからなる単純なベンチマークであるCIRCLE(Code-Interpreter Resilience Check for LLM Exploits)を提案する。
論文 参考訳(メタデータ) (2025-07-25T16:06:16Z) - LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。
M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。
実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文 参考訳(メタデータ) (2025-06-09T12:02:39Z) - Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data [2.549390156222399]
大規模言語モデル(LLM)は、サイバーセキュリティを含む多くのアプリケーションドメインで使用されている。
近年の研究では、疑似悪意のあるサイバーセキュリティデータを用いた微調整LDMが安全性を著しく損なうことが示されている。
本稿では,異なる評価枠組みを用いて,これらの安全性リスクの包括的検証と拡張を行う。
論文 参考訳(メタデータ) (2025-05-15T05:22:53Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - How Well Do Large Language Models Serve as End-to-End Secure Code Agents for Python? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。
4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。
修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文 参考訳(メタデータ) (2024-08-20T02:42:29Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。