論文の概要: Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information
- arxiv url: http://arxiv.org/abs/2311.11509v3
- Date: Sun, 18 Feb 2024 06:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:32:04.313987
- Title: Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information
- Title(参考訳): 難易度対策と文脈情報に基づくToken-Level Adversarial Prompt Detection
- Authors: Zhengmian Hu, Gang Wu, Saayan Mitra, Ruiyi Zhang, Tong Sun, Heng
Huang, and Viswanathan Swaminathan
- Abstract要約: 大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 67.78183175605761
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, Large Language Models (LLM) have emerged as pivotal tools in
various applications. However, these models are susceptible to adversarial
prompt attacks, where attackers can carefully curate input strings that mislead
LLMs into generating incorrect or undesired outputs. Previous work has revealed
that with relatively simple yet effective attacks based on discrete
optimization, it is possible to generate adversarial prompts that bypass
moderation and alignment of the models. This vulnerability to adversarial
prompts underscores a significant concern regarding the robustness and
reliability of LLMs. Our work aims to address this concern by introducing a
novel approach to detecting adversarial prompts at a token level, leveraging
the LLM's capability to predict the next token's probability. We measure the
degree of the model's perplexity, where tokens predicted with high probability
are considered normal, and those exhibiting high perplexity are flagged as
adversarial. Additionaly, our method also integrates context understanding by
incorporating neighboring token information to encourage the detection of
contiguous adversarial prompt sequences. To this end, we design two algorithms
for adversarial prompt detection: one based on optimization techniques and
another on Probabilistic Graphical Models (PGM). Both methods are equipped with
efficient solving methods, ensuring efficient adversarial prompt detection. Our
token-level detection result can be visualized as heatmap overlays on the text
sequence, allowing for a clearer and more intuitive representation of which
part of the text may contain adversarial prompts.
- Abstract(参考訳): 近年,様々なアプリケーションにおいて,Large Language Models (LLM) が重要なツールとして登場している。
しかし、これらのモデルは敵のプロンプト攻撃の影響を受けやすいため、攻撃者はLSMを誤る入力文字列を慎重にキュレートし、誤った出力や望ましくない出力を生成することができる。
従来の研究によると、離散最適化に基づく比較的単純な効果的な攻撃では、モデルのモデレーションやアライメントをバイパスする逆のプロンプトを生成することができる。
敵に対するこの脆弱性は、LSMの堅牢性と信頼性に関する重要な懸念を浮き彫りにする。
本研究の目的は,次のトークンの確率を予測するLLMの能力を活用して,トークンレベルでの敵対的プロンプトの検出に新たなアプローチを導入することである。
本研究では,高い確率で予測されるトークンが正規であり,高いパープレキシティを示すトークンが逆数としてフラグ付けされるような,モデルのパープレキシティの度合いを測定する。
さらに,提案手法では,隣接トークン情報を組み込んだコンテキスト理解も統合し,連続した敵のプロンプトシーケンスの検出を促進する。
この目的のために、最適化手法に基づく2つのアルゴリズムと確率的グラフィカルモデル(PGM)に基づく2つのアルゴリズムを設計する。
どちらの手法も効率的な解法を備えており、効率のよい逆数検出が可能である。
トークンレベルの検出結果は、テキストシーケンス上のヒートマップオーバーレイとして可視化でき、テキストのどの部分が逆プロンプトを含んでいるかを明確により直感的に表現することができます。
関連論文リスト
- The Adversarial Implications of Variable-Time Inference [47.44631666803983]
本稿では,攻撃対象のMLモデルの予測を後処理するアルゴリズムの実行時間を簡単に計測する,新たなサイドチャネルを利用するアプローチを提案する。
我々は,物体検出装置の動作において重要な役割を果たす非最大抑圧(NMS)アルゴリズムからの漏れを調査する。
我々は、YOLOv3検出器に対する攻撃を実演し、タイミングリークを利用して、逆例を用いてオブジェクト検出を回避し、データセット推論を行う。
論文 参考訳(メタデータ) (2023-09-05T11:53:17Z) - Towards Realistic Unsupervised Fine-tuning with CLIP [108.45391206730402]
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - Open-Set Likelihood Maximization for Few-Shot Learning [36.97433312193586]
我々はFew-Shot Open-Set Recognition (FSOSR) 問題、すなわちいくつかのラベル付きサンプルしか持たないクラスのインスタンスを分類する問題に取り組む。
提案手法では,推論時に非競合なクエリインスタンスを利用する。
既存のトランスダクティブ手法はオープンセットのシナリオではうまく動作しないという観測により,最大極大原理の一般化を提案する。
論文 参考訳(メタデータ) (2023-01-20T01:56:19Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。