論文の概要: Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs
- arxiv url: http://arxiv.org/abs/2509.02372v1
- Date: Tue, 02 Sep 2025 14:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.065613
- Title: Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs
- Title(参考訳): スケールで課金される: スケーラブルな監査官がプロダクションLLMの隠れ詐欺のエンドポイントを発見
- Authors: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long,
- Abstract要約: 大規模言語モデル(LLM)は、現代のソフトウェア開発において重要になっているが、トレーニングのためのインターネットデータセットへの依存は、重大なセキュリティリスクをもたらす。
本稿では、既知の詐欺データベースから無害な開発者スタイルのプロンプトを合成し、LCMをクエリし、有害なURLを含むコードを生成するかどうかを判定する、スケーラブルで自動化された監査フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.658912369378617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become critical to modern software development, but their reliance on internet datasets for training introduces a significant security risk: the absorption and reproduction of malicious content. To evaluate this threat, this paper introduces a scalable, automated audit framework that synthesizes innocuous, developer-style prompts from known scam databases to query production LLMs and determine if they generate code containing harmful URLs. We conducted a large-scale evaluation across four production LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout, and DeepSeek-V3), and found a systemic vulnerability, with all tested models generating malicious code at a non-negligible rate. On average, 4.2\% of programs generated in our experiments contained malicious URLs. Crucially, this malicious code is often generated in response to benign prompts. We manually validate the prompts which cause all four LLMs to generate malicious code, and resulting in 177 innocuous prompts that trigger all models to produce harmful outputs. These results provide strong empirical evidence that the training data of production LLMs has been successfully poisoned at scale, underscoring the urgent need for more robust defense mechanisms and post-generation safety checks to mitigate the propagation of hidden security threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代のソフトウェア開発において重要になっているが、トレーニングのためのインターネットデータセットへの依存は、悪意のあるコンテンツの吸収と再生という、重大なセキュリティリスクをもたらす。
この脅威を評価するために、既知の詐欺データベースから無害な開発者スタイルのプロンプトを合成し、LCMをクエリし、有害なURLを含むコードを生成するかどうかを判定する、スケーラブルで自動化された監査フレームワークを提案する。
我々は,4つのLLM(GPT-4o,GPT-4o-mini,Llama-4-Scout,DeepSeek-V3)を大規模に評価し,非無視率で悪意のあるコードを生成するモデルすべてを用いてシステム的脆弱性を発見した。
実験で生成されたプログラムの4.2\%は、悪質なURLを含んでいました。
重要なことに、この悪意のあるコードは、しばしば良心的なプロンプトに反応して生成される。
我々は、4つのLSMがすべて悪質なコードを生成するプロンプトを手動で検証し、177の無害なプロンプトが全てのモデルに有害なアウトプットを発生させる。
これらの結果は,LLMのトレーニングデータが大規模に評価され,より堅牢な防御機構と,隠れたセキュリティ脅威の伝播を緩和するためのポストジェネレーションの安全性チェックの必要性を浮き彫りにしている。
関連論文リスト
- Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。