論文の概要: A Systematic Review of Poisoning Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2506.06518v1
- Date: Fri, 06 Jun 2025 20:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.306763
- Title: A Systematic Review of Poisoning Attacks Against Large Language Models
- Title(参考訳): 大規模言語モデルに対するポジショニング攻撃の体系的レビュー
- Authors: Neil Fendley, Edward W. Staley, Joshua Carney, William Redman, Marie Chau, Nathan Drenkow,
- Abstract要約: 広範囲なLSM中毒攻撃の分類に適用可能な包括的中毒脅威モデルを提案する。
毒の脅威モデルには、攻撃の物流と操作戦略を定義する4つの毒の攻撃仕様と、攻撃の重要な特徴を測定するために使用される6つの毒の指標が含まれる。
- 参考スコア(独自算出の注目度): 4.390276781480338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread availability of pretrained Large Language Models (LLMs) and their training datasets, concerns about the security risks associated with their usage has increased significantly. One of these security risks is the threat of LLM poisoning attacks where an attacker modifies some part of the LLM training process to cause the LLM to behave in a malicious way. As an emerging area of research, the current frameworks and terminology for LLM poisoning attacks are derived from earlier classification poisoning literature and are not fully equipped for generative LLM settings. We conduct a systematic review of published LLM poisoning attacks to clarify the security implications and address inconsistencies in terminology across the literature. We propose a comprehensive poisoning threat model applicable to categorize a wide range of LLM poisoning attacks. The poisoning threat model includes four poisoning attack specifications that define the logistics and manipulation strategies of an attack as well as six poisoning metrics used to measure key characteristics of an attack. Under our proposed framework, we organize our discussion of published LLM poisoning literature along four critical dimensions of LLM poisoning attacks: concept poisons, stealthy poisons, persistent poisons, and poisons for unique tasks, to better understand the current landscape of security risks.
- Abstract(参考訳): 事前訓練されたLarge Language Models(LLM)とそのトレーニングデータセットの普及に伴い、それらの使用に関連するセキュリティリスクに対する懸念が大幅に高まっている。
これらのセキュリティリスクの1つは、攻撃者がLSMのトレーニングプロセスの一部を変更してLSMを悪意ある方法で動作させる、LSM中毒攻撃の脅威である。
新たな研究分野として、LSM中毒攻撃の枠組みと用語は、以前の分類中毒文献から派生しており、ジェネレーティブLSM設定に完全には対応していない。
本報告では, LLM毒殺事件の報告を体系的に検討し, 文献のセキュリティへの影響を明らかにするとともに, 文献における用語の不整合に対処する。
広範囲なLSM中毒攻撃の分類に適用可能な包括的中毒脅威モデルを提案する。
毒の脅威モデルには、攻撃の物流と操作戦略を定義する4つの毒の攻撃仕様と、攻撃の重要な特徴を測定するために使用される6つの毒の指標が含まれる。
提案枠組みでは, LLM毒殺事件の4つの重要な側面, 概念毒, ステルス毒, 持続毒, 独特なタスクに対する毒の4つの側面について, LLM毒殺事件の文献を整理し, 現状のセキュリティリスクの理解を深める。
関連論文リスト
- MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。