論文の概要: Exploring Vulnerabilities and Protections in Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2406.00240v1
- Date: Sat, 1 Jun 2024 00:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:04:10.316689
- Title: Exploring Vulnerabilities and Protections in Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルにおける脆弱性と保護の探索:調査
- Authors: Frank Weizhen Liu, Chenhui Hu,
- Abstract要約: 本稿では,Large Language Models (LLMs) のセキュリティ課題について検討する。
Prompt HackingとAdversarial Attacksの2つの主要分野に焦点を当てている。
これらのセキュリティ問題の詳細を明らかにすることで、この調査はレジリエントなAIシステム構築に関する広範な議論に貢献する。
- 参考スコア(独自算出の注目度): 1.6179784294541053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) increasingly become key components in various AI applications, understanding their security vulnerabilities and the effectiveness of defense mechanisms is crucial. This survey examines the security challenges of LLMs, focusing on two main areas: Prompt Hacking and Adversarial Attacks, each with specific types of threats. Under Prompt Hacking, we explore Prompt Injection and Jailbreaking Attacks, discussing how they work, their potential impacts, and ways to mitigate them. Similarly, we analyze Adversarial Attacks, breaking them down into Data Poisoning Attacks and Backdoor Attacks. This structured examination helps us understand the relationships between these vulnerabilities and the defense strategies that can be implemented. The survey highlights these security challenges and discusses robust defensive frameworks to protect LLMs against these threats. By detailing these security issues, the survey contributes to the broader discussion on creating resilient AI systems that can resist sophisticated attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなAIアプリケーションにおいて、ますます重要なコンポーネントになりつつあるため、セキュリティ上の脆弱性と防御メカニズムの有効性を理解することが不可欠である。
本調査では, LLM のセキュリティ上の課題について検討し, プロンプトハッキングとアタックの2つの主要な分野に注目した。
Prompt Hackingの下で、私たちはPrompt InjectionとJailbreaking Attacksを調査し、それらがどのように機能するか、その潜在的な影響、そしてそれらを緩和する方法について議論する。
同様に、敵攻撃を分析し、それらをデータポジショニングアタックとバックドアアタックに分解する。
この構造化された検査は、これらの脆弱性と実装可能な防衛戦略との関係を理解するのに役立ちます。
この調査では、これらのセキュリティ上の課題を強調し、これらの脅威からLLMを保護するための堅牢な防御フレームワークについて論じている。
これらのセキュリティ問題の詳細を明らかにすることで、この調査は高度な攻撃に耐えられるレジリエントなAIシステム構築に関する広範な議論に貢献する。
関連論文リスト
- Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。
最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文 参考訳(メタデータ) (2024-05-21T13:34:23Z) - A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
論文 参考訳(メタデータ) (2023-12-18T07:07:32Z) - A Malware Classification Survey on Adversarial Attacks and Defences [0.0]
ディープラーニングモデルはマルウェアの検出には有効だが、敵の攻撃に対して脆弱である。
このような攻撃は、検出に抵抗する悪意のあるファイルを生成し、重大なサイバーセキュリティリスクを生み出す。
近年の研究では、いくつかの敵対的攻撃と反応のアプローチが開発されている。
論文 参考訳(メタデータ) (2023-12-15T09:25:48Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Evaluating the Vulnerabilities in ML systems in terms of adversarial
attacks [0.0]
新たな敵攻撃手法は、現在のディープラーニングサイバー防衛システムに課題をもたらす可能性がある。
著者はAIシステムにおける脆弱性の結果を探求する。
テストフェーズにあるAIシステムを適切にトレーニングし、より広範な使用に備えることが重要です。
論文 参考訳(メタデータ) (2023-08-24T16:46:01Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z) - Adversarial Patch Attacks and Defences in Vision-Based Tasks: A Survey [1.0323063834827415]
近年、AIモデルのセキュリティと堅牢性に対する信頼の欠如により、ディープラーニングモデル、特に安全クリティカルなシステムに対する敵対的攻撃がますます注目を集めている。
しかし、より原始的な敵攻撃は物理的に実現不可能な場合や、パッチ攻撃の発端となったトレーニングデータのようなアクセスが難しいリソースを必要とする場合もあります。
本調査では,既存の敵パッチ攻撃のテクニックを包括的に概説し,研究者がこの分野の進展に素早く追いつくのに役立つことを目的としている。
論文 参考訳(メタデータ) (2022-06-16T17:06:47Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Adversarial Machine Learning Attacks and Defense Methods in the Cyber
Security Domain [58.30296637276011]
本稿では,機械学習技術に基づくセキュリティソリューションに対する敵攻撃に関する最新の研究を要約する。
サイバーセキュリティドメインでエンドツーエンドの敵攻撃を実装するという、ユニークな課題を議論するのは、これが初めてである。
論文 参考訳(メタデータ) (2020-07-05T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。