論文の概要: Geometry-Guided Adversarial Prompt Detection via Curvature and Local Intrinsic Dimension
- arxiv url: http://arxiv.org/abs/2503.03502v2
- Date: Tue, 07 Oct 2025 10:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.881183
- Title: Geometry-Guided Adversarial Prompt Detection via Curvature and Local Intrinsic Dimension
- Title(参考訳): 曲率と局所内在次元による幾何誘導逆数プロンプト検出
- Authors: Canaan Yung, Hanxun Huang, Christopher Leckie, Sarah Erfani,
- Abstract要約: CurvaLIDは、その幾何学的性質を活用することで、敵のプロンプトを効率的に検出する新しい防御フレームワークである。
CurvaLIDは、テキストの幾何学的解析に基づいて、その基礎となる違いを明らかにする。
以上の結果から,敵対的プロンプトは良性プロンプトと異なる幾何学的シグネチャを呈し,CurvaLIDがほぼ完璧に分類できることが示唆された。
- 参考スコア(独自算出の注目度): 10.892846618107392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial prompts are capable of jailbreaking frontier large language models (LLMs) and inducing undesirable behaviours, posing a significant obstacle to their safe deployment. Current mitigation strategies primarily rely on activating built-in defence mechanisms or fine-tuning LLMs, both of which are computationally expensive and can sacrifice model utility. In contrast, detection-based approaches are more efficient and practical for deployment in real-world applications. However, the fundamental distinctions between adversarial and benign prompts remain poorly understood. In this work, we introduce CurvaLID, a novel defence framework that efficiently detects adversarial prompts by leveraging their geometric properties. It is agnostic to the type of LLM, offering a unified detection framework across diverse adversarial prompts and LLM architectures. CurvaLID builds on the geometric analysis of text prompts to uncover their underlying differences. We theoretically extend the concept of curvature via the Whewell equation into an $n$-dimensional word embedding space, enabling us to quantify local geometric properties, including semantic shifts and curvature in the underlying manifolds. To further enhance our solution, we leverage Local Intrinsic Dimensionality (LID) to capture complementary geometric features of text prompts within adversarial subspaces. Our findings show that adversarial prompts exhibit distinct geometric signatures from benign prompts, enabling CurvaLID to achieve near-perfect classification and outperform state-of-the-art detectors in adversarial prompt detection. CurvaLID provides a reliable and efficient safeguard against malicious queries as a model-agnostic method that generalises across multiple LLMs and attack families.
- Abstract(参考訳): 敵のプロンプトは、フロンティアの大規模言語モデル(LLM)をジェイルブレイクし、望ましくない振る舞いを誘発し、安全なデプロイメントに重大な障害を生じさせる。
現在の緩和戦略は、主に内蔵防御機構や微調整LDMの活性化に依存しており、どちらも計算コストが高く、モデルの有用性を犠牲にすることができる。
対照的に、検出ベースのアプローチは、現実世界のアプリケーションにデプロイする上で、より効率的で実践的です。
しかし、敵対的と良心的なプロンプトの根本的な区別はいまだに理解されていない。
本稿では,その幾何学的特性を活用することで,敵のプロンプトを効率的に検出する新しい防御フレームワークであるCurvaLIDを紹介する。
LLMのタイプとは無関係であり、様々な敵のプロンプトとLLMアーキテクチャにまたがる統一された検出フレームワークを提供する。
CurvaLIDは、テキストの幾何学的解析に基づいて、その基礎となる違いを明らかにする。
理論的には、ウェウェル方程式による曲率の概念を$n$次元の単語埋め込み空間に拡張し、下層の多様体における意味的シフトや曲率を含む局所幾何学的性質を定量化することができる。
提案手法をさらに強化するために, 局所固有次元(LID)を利用して, 逆部分空間内のテキストプロンプトの相補的幾何学的特徴を捉える。
以上の結果から,敵対的プロンプトは良性プロンプトと異なる幾何学的シグネチャを呈し,CurvaLIDがほぼ完璧に分類され,対人的プロンプト検出における最先端検出器よりも優れていたことが示唆された。
CurvaLIDは、複数のLSMとアタックファミリーをまたいで一般化するモデルに依存しない方法として、悪意のあるクエリに対する信頼性と効率的な保護を提供する。
関連論文リスト
- Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.625319498017733]
PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文 参考訳(メタデータ) (2025-08-03T02:46:30Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。
我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。
実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-30T22:41:05Z) - NLP Verification: Towards a General Methodology for Certifying Robustness [9.897538432223714]
機械学習(ML)は自然言語処理(NLP)の分野で大きな成功を収めている。
これらのシステムが現実世界のアプリケーションにますます統合されるにつれて、安全性と信頼性の確保が主な関心事となっている。
本稿では,幾何学的部分空間の検証と文の意味的意味の相違に言及した,埋め込みギャップの効果を解析するための一般的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:43:52Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation [15.77263269398368]
大規模言語モデル(LLM)は、現在のAIのブレークスルーを促進する。
我々は幾何学のレンズを通してLLMの内部機構に光を当てた。
我々は,任意の(事前学習された)LLMから抽出できる解釈可能な幾何学的特徴を導出する。
論文 参考訳(メタデータ) (2023-12-04T06:01:32Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。