論文の概要: Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector
- arxiv url: http://arxiv.org/abs/2404.12038v1
- Date: Thu, 18 Apr 2024 09:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:51:17.602830
- Title: Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector
- Title(参考訳): コンセプトアクティベーションベクトルによるオープンソースLCMの安全性リスクの解明
- Authors: Zhihao Xu, Ruixuan Huang, Xiting Wang, Fangzhao Wu, Jing Yao, Xing Xie,
- Abstract要約: 本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 62.23945242640024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current open-source large language models (LLMs) are often undergone careful safety alignment before public release. Some attack methods have also been proposed that help check for safety vulnerabilities in LLMs to ensure alignment robustness. However, many of these methods have moderate attack success rates. Even when successful, the harmfulness of their outputs cannot be guaranteed, leading to suspicions that these methods have not accurately identified the safety vulnerabilities of LLMs. In this paper, we introduce a LLM attack method utilizing concept-based model explanation, where we extract safety concept activation vectors (SCAVs) from LLMs' activation space, enabling efficient attacks on well-aligned LLMs like LLaMA-2, achieving near 100% attack success rate as if LLMs are completely unaligned. This suggests that LLMs, even after thorough safety alignment, could still pose potential risks to society upon public release. To evaluate the harmfulness of outputs resulting with various attack methods, we propose a comprehensive evaluation method that reduces the potential inaccuracies of existing evaluations, and further validate that our method causes more harmful content. Additionally, we discover that the SCAVs show some transferability across different open-source LLMs.
- Abstract(参考訳): 現在のオープンソースの大規模言語モデル(LLM)は、パブリックリリース前に慎重に安全アライメントされることが多い。
また、LCMの安全性上の脆弱性のチェックとアライメントの堅牢性を確保するための攻撃方法も提案されている。
しかし、これらの手法の多くは中程度の攻撃成功率を有する。
成功しても、そのアウトプットの有害性は保証できないため、これらの手法がLSMの安全性の脆弱性を正確に特定していないという疑いが生じる。
本稿では, LLM のアクティベーション空間から安全概念アクティベーションベクトル (SCAV) を抽出し, LLaMA-2 のようなよく整合した LLM に対する効率的な攻撃を可能にし, LLM が完全に不整合であるかのように, 100% 近い攻撃成功率を達成する, 概念に基づくモデル説明を利用した LLM 攻撃手法を提案する。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
各種攻撃手法によるアウトプットの有害性を評価するため,既存の評価の潜在的な不正確さを低減し,さらに有害な内容を引き起こすことを検証した総合評価手法を提案する。
さらに、SCAVは、異なるオープンソースLLM間での転送可能性を示す。
関連論文リスト
- Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions [125.21418304558948]
大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable
Safety Detectors [93.43498570530565]
ShieldLMはLarge Language Models (LLMs) の安全検知装置であり、一般的な人間の安全基準に適合する。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [31.043844145980675]
MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large
Language Models [44.1948821279342]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。