論文の概要: Prompt Injection Attacks in Defended Systems
- arxiv url: http://arxiv.org/abs/2406.14048v1
- Date: Thu, 20 Jun 2024 07:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:00:17.622697
- Title: Prompt Injection Attacks in Defended Systems
- Title(参考訳): 固定システムにおけるプロンプトインジェクションアタック
- Authors: Daniil Khomsky, Narek Maloyan, Bulat Nutfullin,
- Abstract要約: ブラックボックス攻撃は、隠れた悪意のある機能を大きな言語モデルに埋め込むことができる。
本稿では,3段階の防御機構を持つ大規模言語モデルに対するブラックボックス攻撃手法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models play a crucial role in modern natural language processing technologies. However, their extensive use also introduces potential security risks, such as the possibility of black-box attacks. These attacks can embed hidden malicious features into the model, leading to adverse consequences during its deployment. This paper investigates methods for black-box attacks on large language models with a three-tiered defense mechanism. It analyzes the challenges and significance of these attacks, highlighting their potential implications for language processing system security. Existing attack and defense methods are examined, evaluating their effectiveness and applicability across various scenarios. Special attention is given to the detection algorithm for black-box attacks, identifying hazardous vulnerabilities in language models and retrieving sensitive information. This research presents a methodology for vulnerability detection and the development of defensive strategies against black-box attacks on large language models.
- Abstract(参考訳): 大規模言語モデルは、現代の自然言語処理技術において重要な役割を担っている。
しかし、その広範囲な使用は、ブラックボックス攻撃の可能性のような潜在的なセキュリティリスクも引き起こす。
これらの攻撃は、隠された悪意のある機能をモデルに埋め込むことができ、デプロイ中に悪影響を及ぼす。
本稿では,3段階の防御機構を持つ大規模言語モデルに対するブラックボックス攻撃手法について検討する。
これらの攻撃の課題と重要性を分析し、言語処理システムのセキュリティに対する潜在的な影響を強調します。
既存の攻撃法と防御法について検討し, 各種シナリオにおける有効性と適用性について検討した。
ブラックボックス攻撃の検出アルゴリズム、言語モデルにおける有害な脆弱性の特定、機密情報の検索に特に注意が払われている。
本研究では,大規模言語モデルに対するブラックボックス攻撃に対する脆弱性検出手法と防御戦略の開発について述べる。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [25.381528717141684]
大規模言語モデル(LLM)は、人間の言語理解と複雑な問題解決のギャップを埋める。
LLMはセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすい。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Exploring Vulnerabilities and Protections in Large Language Models: A Survey [1.6179784294541053]
本稿では,Large Language Models (LLMs) のセキュリティ課題について検討する。
Prompt HackingとAdversarial Attacksの2つの主要分野に焦点を当てている。
これらのセキュリティ問題の詳細を明らかにすることで、この調査はレジリエントなAIシステム構築に関する広範な議論に貢献する。
論文 参考訳(メタデータ) (2024-06-01T00:11:09Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
本研究は多言語モデルに対する言語間バックドア攻撃に焦点を当てている。
本研究では,教育指導データが有毒でない言語において,教育指導データが1つか2つの言語でどのように影響するかを検討する。
本手法は, mT5, BLOOM, GPT-3.5-turbo などのモデルにおいて, 高い攻撃成功率を示し, 複数の言語で95%を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - The Vulnerability of the Neural Networks Against Adversarial Examples in
Deep Learning Algorithms [8.662390869320323]
本稿では,深層学習における逆例の問題を紹介し,ブラックボックスとホワイトボックスの既存の攻撃・防御手法を整理し,それらを分類する。
近年の様々なシナリオにおける敵の事例の応用を簡潔に記述し、敵の事例の防衛技術をいくつか比較し、最終的にこの研究分野の問題点と今後の発展の展望を要約する。
論文 参考訳(メタデータ) (2020-11-02T04:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。