論文の概要: A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models
- arxiv url: http://arxiv.org/abs/2312.10982v1
- Date: Mon, 18 Dec 2023 07:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 11:57:39.081068
- Title: A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models
- Title(参考訳): 大規模言語モデルにおける攻撃手法・実装・緩和戦略の包括的調査
- Authors: Aysan Esmradi, Daniel Wankit Yip, Chun Fai Chan,
- Abstract要約: この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensuring the security of large language models (LLMs) is an ongoing challenge despite their widespread popularity. Developers work to enhance LLMs security, but vulnerabilities persist, even in advanced versions like GPT-4. Attackers exploit these weaknesses, highlighting the need for proactive cybersecurity measures in AI model development. This article explores two attack categories: attacks on models themselves and attacks on model applications. The former requires expertise, access to model data, and significant implementation time, while the latter is more accessible to attackers and has seen increased attention. Our study reviews over 100 recent research works, providing an in-depth analysis of each attack type. We identify the latest attack methods and explore various approaches to carry them out. We thoroughly investigate mitigation techniques, assessing their effectiveness and limitations. Furthermore, we summarize future defenses against these attacks. We also examine real-world techniques, including reported and our implemented attacks on LLMs, to consolidate our findings. Our research highlights the urgency of addressing security concerns and aims to enhance the understanding of LLM attacks, contributing to robust defense development in this evolving domain.
- Abstract(参考訳): 大きな言語モデル(LLM)のセキュリティを確保することは、広く普及しているにもかかわらず、現在進行中の課題である。
開発者はLSMのセキュリティを強化するために作業するが、脆弱性はGPT-4のような高度なバージョンでも持続する。
攻撃者はこれらの弱点を悪用し、AIモデル開発における積極的なサイバーセキュリティ対策の必要性を強調している。
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間を必要とし、後者は攻撃者に対してよりアクセスしやすく、注目されている。
本研究は,100以上の最近の研究成果をレビューし,各攻撃タイプについて詳細な分析を行った。
我々は、最新の攻撃方法を特定し、それらを実行するための様々なアプローチを探索する。
我々は、緩和手法を徹底的に検討し、その効果と限界を評価した。
さらに、これらの攻撃に対する将来の防御について要約する。
また,LLMに対する報告や実施した攻撃を含む実世界の技術についても検討し,その結果を整理した。
本研究は、セキュリティ問題に対処する緊急性を強調し、LLM攻撃の理解を高めることを目的としており、この発展途上の領域における堅牢な防衛開発に寄与している。
関連論文リスト
- Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - LLM Jailbreak Attack versus Defense Techniques -- A Comprehensive Study [21.887754822482528]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - A Survey on Vulnerability of Federated Learning: A Learning Algorithm
Perspective [8.941193384980147]
FLシステムの学習プロセスを対象とした脅威モデルに焦点を当てる。
防衛戦略は、特定のメトリクスを使用して悪意のあるクライアントを除外することから進化してきた。
最近の取り組みは、ローカルモデルの最小限の重みを、防御措置をバイパスするために微妙に変更している。
論文 参考訳(メタデータ) (2023-11-27T18:32:08Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Effectiveness of Moving Target Defenses for Adversarial Attacks in
ML-based Malware Detection [0.0]
近年,敵ML攻撃に対する標的防御(MTD)の移動が提案されている。
マルウェア検出領域に適用した敵ML攻撃に対する最近のMTDの有効性を初めて検討した。
転送可能性とクエリアタック戦略は,これらの防御に対して高いレベルの回避を達成できることを示す。
論文 参考訳(メタデータ) (2023-02-01T16:03:34Z) - Adversarial Patch Attacks and Defences in Vision-Based Tasks: A Survey [1.0323063834827415]
近年、AIモデルのセキュリティと堅牢性に対する信頼の欠如により、ディープラーニングモデル、特に安全クリティカルなシステムに対する敵対的攻撃がますます注目を集めている。
しかし、より原始的な敵攻撃は物理的に実現不可能な場合や、パッチ攻撃の発端となったトレーニングデータのようなアクセスが難しいリソースを必要とする場合もあります。
本調査では,既存の敵パッチ攻撃のテクニックを包括的に概説し,研究者がこの分野の進展に素早く追いつくのに役立つことを目的としている。
論文 参考訳(メタデータ) (2022-06-16T17:06:47Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Challenges and Countermeasures for Adversarial Attacks on Deep
Reinforcement Learning [48.49658986576776]
深層強化学習(Dep Reinforcement Learning, DRL)は、周囲の環境に適応する優れた能力のおかげで、現実世界に多くの応用がある。
その大きな利点にもかかわらず、DRLは現実のクリティカルシステムやアプリケーションでの使用を妨げている敵攻撃の影響を受けやすい。
本稿では,DRLベースのシステムにおける新たな攻撃と,これらの攻撃を防御するための潜在的対策について述べる。
論文 参考訳(メタデータ) (2020-01-27T10:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。