論文の概要: Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs
- arxiv url: http://arxiv.org/abs/2509.02372v1
- Date: Tue, 02 Sep 2025 14:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.065613
- Title: Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs
- Title(参考訳): スケールで課金される: スケーラブルな監査官がプロダクションLLMの隠れ詐欺のエンドポイントを発見
- Authors: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long,
- Abstract要約: 大規模言語モデル(LLM)は、現代のソフトウェア開発において重要になっているが、トレーニングのためのインターネットデータセットへの依存は、重大なセキュリティリスクをもたらす。
本稿では、既知の詐欺データベースから無害な開発者スタイルのプロンプトを合成し、LCMをクエリし、有害なURLを含むコードを生成するかどうかを判定する、スケーラブルで自動化された監査フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.658912369378617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become critical to modern software development, but their reliance on internet datasets for training introduces a significant security risk: the absorption and reproduction of malicious content. To evaluate this threat, this paper introduces a scalable, automated audit framework that synthesizes innocuous, developer-style prompts from known scam databases to query production LLMs and determine if they generate code containing harmful URLs. We conducted a large-scale evaluation across four production LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout, and DeepSeek-V3), and found a systemic vulnerability, with all tested models generating malicious code at a non-negligible rate. On average, 4.2\% of programs generated in our experiments contained malicious URLs. Crucially, this malicious code is often generated in response to benign prompts. We manually validate the prompts which cause all four LLMs to generate malicious code, and resulting in 177 innocuous prompts that trigger all models to produce harmful outputs. These results provide strong empirical evidence that the training data of production LLMs has been successfully poisoned at scale, underscoring the urgent need for more robust defense mechanisms and post-generation safety checks to mitigate the propagation of hidden security threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代のソフトウェア開発において重要になっているが、トレーニングのためのインターネットデータセットへの依存は、悪意のあるコンテンツの吸収と再生という、重大なセキュリティリスクをもたらす。
この脅威を評価するために、既知の詐欺データベースから無害な開発者スタイルのプロンプトを合成し、LCMをクエリし、有害なURLを含むコードを生成するかどうかを判定する、スケーラブルで自動化された監査フレームワークを提案する。
我々は,4つのLLM(GPT-4o,GPT-4o-mini,Llama-4-Scout,DeepSeek-V3)を大規模に評価し,非無視率で悪意のあるコードを生成するモデルすべてを用いてシステム的脆弱性を発見した。
実験で生成されたプログラムの4.2\%は、悪質なURLを含んでいました。
重要なことに、この悪意のあるコードは、しばしば良心的なプロンプトに反応して生成される。
我々は、4つのLSMがすべて悪質なコードを生成するプロンプトを手動で検証し、177の無害なプロンプトが全てのモデルに有害なアウトプットを発生させる。
これらの結果は,LLMのトレーニングデータが大規模に評価され,より堅牢な防御機構と,隠れたセキュリティ脅威の伝播を緩和するためのポストジェネレーションの安全性チェックの必要性を浮き彫りにしている。
関連論文リスト
- Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak [27.520381454182147]
本研究では,アルゴリズムの自動設計における大規模言語モデル(LLM)の安全性について検討する。
悪質な最適化アルゴリズム要求60件からなるベンチマークであるMalOptBenchを紹介し,MOBjailbreakを提案する。
このような攻撃に対して、ほとんどのモデルは高い影響を受けており、攻撃成功率は平均83.59%であり、元の有害なプロンプトでは5つ中4.28点である。
論文 参考訳(メタデータ) (2026-01-01T05:14:32Z) - Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security [0.0]
大規模言語モデル(LLM)は、ネイティブコードインタプリタを統合し、リアルタイム実行機能を実現する。
これらの統合は、システムレベルのサイバーセキュリティの脅威をもたらす可能性がある。
本稿では、CPU、メモリ、ディスクリソースの枯渇をターゲットとした1,260プロンプトからなる単純なベンチマークであるCIRCLE(Code-Interpreter Resilience Check for LLM Exploits)を提案する。
論文 参考訳(メタデータ) (2025-07-25T16:06:16Z) - LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。
M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。
実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文 参考訳(メタデータ) (2025-06-09T12:02:39Z) - Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data [2.549390156222399]
大規模言語モデル(LLM)は、サイバーセキュリティを含む多くのアプリケーションドメインで使用されている。
近年の研究では、疑似悪意のあるサイバーセキュリティデータを用いた微調整LDMが安全性を著しく損なうことが示されている。
本稿では,異なる評価枠組みを用いて,これらの安全性リスクの包括的検証と拡張を行う。
論文 参考訳(メタデータ) (2025-05-15T05:22:53Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - How Well Do Large Language Models Serve as End-to-End Secure Code Agents for Python? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。
4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。
修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文 参考訳(メタデータ) (2024-08-20T02:42:29Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。