論文の概要: LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures
- arxiv url: http://arxiv.org/abs/2505.01177v1
- Date: Fri, 02 May 2025 10:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.995769
- Title: LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures
- Title(参考訳): LLMセキュリティ:脆弱性、攻撃、防御、対策
- Authors: Francisco Aguilera-Martínez, Fernando Berzal,
- Abstract要約: 本調査は,大規模言語モデル(LLM)を対象とした各種攻撃を定義し,分類することを目的とする。
これらの攻撃を徹底的に分析し、そのような脅威を軽減するために設計された防御機構を探索する。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to evolve, it is critical to assess the security threats and vulnerabilities that may arise both during their training phase and after models have been deployed. This survey seeks to define and categorize the various attacks targeting LLMs, distinguishing between those that occur during the training phase and those that affect already trained models. A thorough analysis of these attacks is presented, alongside an exploration of defense mechanisms designed to mitigate such threats. Defenses are classified into two primary categories: prevention-based and detection-based defenses. Furthermore, our survey summarizes possible attacks and their corresponding defense strategies. It also provides an evaluation of the effectiveness of the known defense mechanisms for the different security threats. Our survey aims to offer a structured framework for securing LLMs, while also identifying areas that require further research to improve and strengthen defenses against emerging security challenges.
- Abstract(参考訳): 大きな言語モデル(LLM)が進化を続けるにつれて、トレーニングフェーズとデプロイ後のモデルの両方で発生する可能性のあるセキュリティの脅威と脆弱性を評価することが重要である。
この調査では、LLMをターゲットにした様々な攻撃を定義し、分類し、トレーニングフェーズ中に発生する攻撃と、すでに訓練されたモデルに影響を与える攻撃とを区別する。
これらの攻撃を徹底的に分析し、そのような脅威を軽減するために設計された防御機構を探索する。
防衛は、予防に基づく防衛と検出に基づく防衛の2つの主要なカテゴリに分類される。
さらに,攻撃の可能性とその防御戦略について概説した。
また、異なるセキュリティ脅威に対する既知の防御機構の有効性の評価も提供する。
本調査は,LLMの安全確保のための構造的枠組みを提供するとともに,新たなセキュリティ課題に対する防御の改善と強化のためにさらなる研究を必要とする分野を特定することを目的としている。
関連論文リスト
- Attack and defense techniques in large language models: A survey and new perspectives [5.600972861188751]
大規模言語モデル(LLM)は多くの自然言語処理タスクの中心となっているが、その脆弱性はセキュリティと倫理的課題を呈している。
この体系的な調査は、LLMにおける攻撃と防御技術の進化の展望を探求する。
論文 参考訳(メタデータ) (2025-05-02T03:37:52Z) - Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。
彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。
本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-05T06:31:37Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Exploring Vulnerabilities and Protections in Large Language Models: A Survey [1.6179784294541053]
本稿では,Large Language Models (LLMs) のセキュリティ課題について検討する。
Prompt HackingとAdversarial Attacksの2つの主要分野に焦点を当てている。
これらのセキュリティ問題の詳細を明らかにすることで、この調査はレジリエントなAIシステム構築に関する広範な議論に貢献する。
論文 参考訳(メタデータ) (2024-06-01T00:11:09Z) - A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
論文 参考訳(メタデータ) (2023-12-18T07:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。