Fugu-MT 論文翻訳(概要): Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information

論文の概要: Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information

arxiv url: http://arxiv.org/abs/2311.11509v2
Date: Mon, 27 Nov 2023 06:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 12:30:27.862980
Title: Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information
Title（参考訳）: 難易度対策と文脈情報に基づくToken-Level Adversarial Prompt Detection
Authors: Zhengmian Hu, Gang Wu, Saayan Mitra, Ruiyi Zhang, Tong Sun, Heng Huang, and Viswanathan Swaminathan
Abstract要約: LLM(Large Language Models)は、敵の迅速な攻撃を受けやすい言語モデルである。本稿では,逆方向のプロンプトを識別するトークンレベル検出手法を提案する。
参考スコア（独自算出の注目度）: 67.78183175605761
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In recent years, Large Language Models (LLM) have emerged as pivotal tools in various applications. However, these models are susceptible to adversarial prompt attacks, where attackers can carefully curate input strings that lead to undesirable outputs. The inherent vulnerability of LLMs stems from their input-output mechanisms, especially when presented with intensely out-of-distribution (OOD) inputs. This paper proposes a token-level detection method to identify adversarial prompts, leveraging the LLM's capability to predict the next token's probability. We measure the degree of the model's perplexity and incorporate neighboring token information to encourage the detection of contiguous adversarial prompt sequences. As a result, we propose two methods: one that identifies each token as either being part of an adversarial prompt or not, and another that estimates the probability of each token being part of an adversarial prompt.
Abstract（参考訳）: 近年,様々なアプリケーションにおいて,Large Language Models (LLM) が重要なツールとして登場している。しかし、これらのモデルは、攻撃者が望ましくない出力につながる入力文字列を慎重にキュレートできる、敵対的なプロンプト攻撃の影響を受けやすい。 LLMの固有の脆弱性は、特にOOD(out-of-distribution)入力が提示された場合に、入力出力機構に起因している。本稿では,次のトークンの確率を予測するLLMの能力を利用して,逆方向のプロンプトを識別するトークンレベル検出手法を提案する。モデルのパープレキシティを計測し、隣接するトークン情報を取り込んで、連続した敵のプロンプトシーケンスの検出を促進する。その結果、各トークンを敵プロンプトの一部かそうでないかを識別する手法と、敵プロンプトの一部である各トークンの確率を推定する手法の2つの方法を提案する。

関連論文リスト

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。本稿では,新しいNLPを用いたインジェクション検出手法を提案する。階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文参考訳（メタデータ） (2024-10-28T15:47:03Z)
AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文参考訳（メタデータ） (2024-08-04T09:53:50Z)
Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文参考訳（メタデータ） (2024-07-31T16:13:29Z)
The Adversarial Implications of Variable-Time Inference [47.44631666803983]
本稿では,攻撃対象のMLモデルの予測を後処理するアルゴリズムの実行時間を簡単に計測する,新たなサイドチャネルを利用するアプローチを提案する。我々は,物体検出装置の動作において重要な役割を果たす非最大抑圧(NMS)アルゴリズムからの漏れを調査する。我々は、YOLOv3検出器に対する攻撃を実演し、タイミングリークを利用して、逆例を用いてオブジェクト検出を回避し、データセット推論を行う。
論文参考訳（メタデータ） (2023-09-05T11:53:17Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Learning to Separate Clusters of Adversarial Representations for Robust Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文参考訳（メタデータ） (2020-12-07T07:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。