論文の概要: AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI)
- arxiv url: http://arxiv.org/abs/2506.08885v2
- Date: Wed, 11 Jun 2025 05:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.745662
- Title: AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI)
- Title(参考訳): AdversariaL attacK sAfety aLIgnment (ALKALI): GRACE: Geometric Representation-Aware Contrastive Enhancement-Introducing Adversarial Vulnerability Quality Index (AVQI)
- Authors: Danush Khanna, Krishna Kumar, Basab Ghosh, Vinija Jain, Vasu Sharma, Aman Chadha, Amitava Das,
- Abstract要約: LLMに対する敵の脅威は、現在の防衛が適応できるよりも急速にエスカレートしている。
ALKALIは, 厳格にキュレートされた最初の逆数ベンチマークである。
本稿では、遅延空間正規化と協調するアライメントフレームワークGRACEを紹介する。
- 参考スコア(独自算出の注目度): 7.628249019494587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial threats against LLMs are escalating faster than current defenses can adapt. We expose a critical geometric blind spot in alignment: adversarial prompts exploit latent camouflage, embedding perilously close to the safe representation manifold while encoding unsafe intent thereby evading surface level defenses like Direct Preference Optimization (DPO), which remain blind to the latent geometry. We introduce ALKALI, the first rigorously curated adversarial benchmark and the most comprehensive to date spanning 9,000 prompts across three macro categories, six subtypes, and fifteen attack families. Evaluation of 21 leading LLMs reveals alarmingly high Attack Success Rates (ASRs) across both open and closed source models, exposing an underlying vulnerability we term latent camouflage, a structural blind spot where adversarial completions mimic the latent geometry of safe ones. To mitigate this vulnerability, we introduce GRACE - Geometric Representation Aware Contrastive Enhancement, an alignment framework coupling preference learning with latent space regularization. GRACE enforces two constraints: latent separation between safe and adversarial completions, and adversarial cohesion among unsafe and jailbreak behaviors. These operate over layerwise pooled embeddings guided by a learned attention profile, reshaping internal geometry without modifying the base model, and achieve up to 39% ASR reduction. Moreover, we introduce AVQI, a geometry aware metric that quantifies latent alignment failure via cluster separation and compactness. AVQI reveals when unsafe completions mimic the geometry of safe ones, offering a principled lens into how models internally encode safety. We make the code publicly available at https://anonymous.4open.science/r/alkali-B416/README.md.
- Abstract(参考訳): LLMに対する敵の脅威は、現在の防衛が適応できるよりも急速にエスカレートしている。
敵は隠れたカモフラージュを悪用し、安全な表現多様体に近づき、安全でない意図を符号化して、潜伏した幾何に盲目のままであるDPO(Direct Preference Optimization)のような表面レベルの防御を回避する。
ALKALIは,3つのマクロカテゴリ,6つのサブタイプ,15の攻撃ファミリーにまたがる9000のプロンプトにまたがる,厳格にキュレートされた最初の逆数ベンチマークである。
21個のLLMの評価は、オープンソースモデルとクローズドソースモデルの両方で驚くほど高いアタック成功率(ASR)を明らかにし、隠れたカモフラージュ(Latent camouflage)と呼ばれる脆弱性を明らかにする。
この脆弱性を軽減するために, GRACE - Geometric Representation Aware Contrastive Enhancementを導入する。
GRACEは2つの制約を課している: 安全と敵対的な完了の遅延分離と、安全でない行動と脱獄行動の間の敵対的結束である。
これらは、学習された注意プロファイルによって導かれる階層的にプールされた埋め込みで動作し、ベースモデルを変更することなく内部形状を再構成し、最大39%のASR還元を達成する。
さらに,クラスタ分離とコンパクト性を通じて遅延アライメント障害を定量化する幾何学的アライメント指標であるAVQIを導入する。
AVQIは、安全でない完成品が安全物の幾何学を模倣している場合を明らかにし、モデルの安全性を内部的にエンコードする方法に原則化されたレンズを提供する。
コードをhttps://anonymous.4open.science/r/alkali-B416/README.mdで公開しています。
関連論文リスト
- Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models [26.838410830637304]
VLM(Vision-Language Models)は優れた性能を示すが、強力な視覚エンコーダの統合により攻撃面が大幅に拡張されている。
安全境界探索と安全境界交差という2つの段階からなる新しい遅延宇宙脱獄フレームワークであるJailBoundを提案する。
以上の結果から,JailBoundは平均94.32%のホワイトボックス,67.28%のブラックボックス攻撃を達成し,SOTA法より6.17%,21.13%高い結果を得た。
論文 参考訳(メタデータ) (2025-05-26T07:23:00Z) - Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses [6.736255552371404]
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。
グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
論文 参考訳(メタデータ) (2025-05-21T16:43:17Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。