論文の概要: CURVALID: Geometrically-guided Adversarial Prompt Detection
- arxiv url: http://arxiv.org/abs/2503.03502v1
- Date: Wed, 05 Mar 2025 13:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:38.201086
- Title: CURVALID: Geometrically-guided Adversarial Prompt Detection
- Title(参考訳): CURVALID:幾何誘導型対向プロンプト検出
- Authors: Canaan Yung, Hanxun Huang, Sarah Monazam Erfani, Christopher Leckie,
- Abstract要約: 大きな言語モデルをジェイルブレイクできる敵のプロンプトは、安全なデプロイメントに重大な障害をもたらす。
本稿では,その幾何学的特性を活用することで,敵のプロンプトを効率的に検出する新しい防御フレームワークであるCurvaLIDを紹介する。
以上の結果から,CurvaLIDは対向クエリの検出と拒否に優れることが示された。
- 参考スコア(独自算出の注目度): 15.315236420410152
- License:
- Abstract: Adversarial prompts capable of jailbreaking large language models (LLMs) and inducing undesirable behaviours pose a significant obstacle to their safe deployment. Current mitigation strategies rely on activating built-in defence mechanisms or fine-tuning the LLMs, but the fundamental distinctions between adversarial and benign prompts are yet to be understood. In this work, we introduce CurvaLID, a novel defense framework that efficiently detects adversarial prompts by leveraging their geometric properties. It is agnostic to the type of LLM, offering a unified detection framework across diverse adversarial prompts and LLM architectures. CurvaLID builds on the geometric analysis of text prompts to uncover their underlying differences. We theoretically extend the concept of curvature via the Whewell equation into an $n$-dimensional word embedding space, enabling us to quantify local geometric properties, including semantic shifts and curvature in the underlying manifolds. Additionally, we employ Local Intrinsic Dimensionality (LID) to capture geometric features of text prompts within adversarial subspaces. Our findings reveal that adversarial prompts differ fundamentally from benign prompts in terms of their geometric characteristics. Our results demonstrate that CurvaLID delivers superior detection and rejection of adversarial queries, paving the way for safer LLM deployment. The source code can be found at https://github.com/Cancanxxx/CurvaLID
- Abstract(参考訳): 大規模言語モデル(LLM)をジェイルブレイクし、望ましくない振る舞いを誘発する敵のプロンプトは、安全なデプロイメントに重大な障害をもたらす。
現在の緩和戦略は、内蔵防衛機構の活性化やLDMの微調整に依存しているが、敵と良性のプロンプトの根本的な区別はまだ理解されていない。
本稿では,その幾何学的特性を活用することで,敵のプロンプトを効率的に検出する新しい防御フレームワークであるCurvaLIDを紹介する。
LLMのタイプとは無関係であり、様々な敵のプロンプトとLLMアーキテクチャにまたがる統一された検出フレームワークを提供する。
CurvaLIDは、テキストの幾何学的解析に基づいて、その基礎となる違いを明らかにする。
理論的には、ウェウェル方程式による曲率の概念を$n$次元の単語埋め込み空間に拡張し、下層の多様体における意味的シフトや曲率を含む局所幾何学的性質を定量化することができる。
さらに,テキストプロンプトの幾何学的特徴を逆部分空間内で捉えるために,局所固有次元(LID)を用いる。
以上の結果から,敵対的プロンプトと良性プロンプトとは,幾何学的特徴の点で根本的に異なることが明らかとなった。
以上の結果から,CurvaLIDは,より安全なLSMデプロイメントを実現するために,対向クエリの検出と拒否に優れることを示す。
ソースコードはhttps://github.com/Cancanxxx/CurvaLIDで確認できる。
関連論文リスト
- Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。
我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。
実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-30T22:41:05Z) - NLP Verification: Towards a General Methodology for Certifying Robustness [9.897538432223714]
機械学習(ML)は自然言語処理(NLP)の分野で大きな成功を収めている。
これらのシステムが現実世界のアプリケーションにますます統合されるにつれて、安全性と信頼性の確保が主な関心事となっている。
本稿では,幾何学的部分空間の検証と文の意味的意味の相違に言及した,埋め込みギャップの効果を解析するための一般的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:43:52Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation [15.77263269398368]
大規模言語モデル(LLM)は、現在のAIのブレークスルーを促進する。
我々は幾何学のレンズを通してLLMの内部機構に光を当てた。
我々は,任意の(事前学習された)LLMから抽出できる解釈可能な幾何学的特徴を導出する。
論文 参考訳(メタデータ) (2023-12-04T06:01:32Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。