Fugu-MT 論文翻訳(概要): Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

論文の概要: Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

arxiv url: http://arxiv.org/abs/2509.02372v2
Date: Thu, 02 Oct 2025 20:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 14:21:29.862303
Title: Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs
Title（参考訳）: Scam2Prompt: プロダクションLLMにおける悪意ある詐欺エンドポイントを監査するためのスケーラブルなフレームワーク
Authors: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long,
Abstract要約: Scam2Promptは、詐欺サイトの基礎となる意図を特定し、その意図を反映した開発者スタイルのプロンプトを合成するフレームワークである。大規模な調査では、Scam2Promptの無害なプロンプトが4.24%のケースで悪意のあるURL生成を引き起こした。脆弱性は存在するだけでなく、深刻なものであり、悪意のあるコード生成率は12.7%から43.8%であることがわかった。
参考スコア（独自算出の注目度）: 10.658912369378617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have become critical to modern software development, but their reliance on uncurated web-scale datasets for training introduces a significant security risk: the absorption and reproduction of malicious content. To systematically evaluate this risk, we introduce Scam2Prompt, a scalable automated auditing framework that identifies the underlying intent of a scam site and then synthesizes innocuous, developer-style prompts that mirror this intent, allowing us to test whether an LLM will generate malicious code in response to these innocuous prompts. In a large-scale study of four production LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout, and DeepSeek-V3), we found that Scam2Prompt's innocuous prompts triggered malicious URL generation in 4.24% of cases. To test the persistence of this security risk, we constructed Innoc2Scam-bench, a benchmark of 1,559 innocuous prompts that consistently elicited malicious code from all four initial LLMs. When applied to seven additional production LLMs released in 2025, we found the vulnerability is not only present but severe, with malicious code generation rates ranging from 12.7% to 43.8%. Furthermore, existing safety measures like state-of-the-art guardrails proved insufficient to prevent this behavior, with an overall detection rate of less than 0.3%.
Abstract（参考訳）: 大規模言語モデル(LLM)は現代のソフトウェア開発において重要になっているが、トレーニングのための未処理のWebスケールデータセットへの依存は、悪意のあるコンテンツの吸収と再現という、重大なセキュリティリスクをもたらす。このリスクを体系的に評価するために、スケーラブルな自動監査フレームワークであるScam2Promptを紹介します。これは、詐欺サイトの基礎となる意図を特定し、その意図を反映した無害な開発者スタイルのプロンプトを合成し、これらの無害なプロンプトに応答してLLMが悪意のあるコードを生成するかどうかをテストする。 4つのLLM(GPT-4o,GPT-4o-mini,Llama-4-Scout,DeepSeek-V3)を大規模に調査した結果,Scam2Promptの無害なプロンプトが4.24%の症例で悪質なURL生成を引き起こしていることがわかった。 Innoc2Scam-benchは1,559個の無害なプロンプトのベンチマークで、4つの初期LLMから悪意のあるコードを一貫して引き出す。 2025年にリリースされた7つの追加のLLMに適用すると、脆弱性は存在するだけでなく深刻であり、悪意のあるコード生成率は12.7%から43.8%であることがわかった。さらに、最先端のガードレールのような既存の安全対策は、全体的な検出率は0.3%未満であり、この行動を防ぐには不十分であった。

関連論文リスト

Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-06-18T11:29:34Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文参考訳（メタデータ） (2024-01-29T17:13:44Z)
Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。 LLMは人間と弱点を共有している。我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文参考訳（メタデータ） (2023-11-13T08:54:37Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。