論文の概要: Soft Prompt Threats: Attacking Safety Alignment and Unlearning in
Open-Source LLMs through the Embedding Space
- arxiv url: http://arxiv.org/abs/2402.09063v1
- Date: Wed, 14 Feb 2024 10:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:08:13.444778
- Title: Soft Prompt Threats: Attacking Safety Alignment and Unlearning in
Open-Source LLMs through the Embedding Space
- Title(参考訳): ソフトプロンプト脅威: 組込み空間を通じたオープンソースllmにおける安全アライメントとアンラーニングへの攻撃
- Authors: Leo Schwinn and David Dobre and Sophie Xhonneux and Gauthier Gidel and
Stephan Gunnemann
- Abstract要約: 本稿では,入力トークンの連続的な埋め込み表現を直接攻撃する埋め込み空間攻撃を提案する。
組込み空間攻撃はモデルアライメントを回避し、離散攻撃やモデル微調整よりも有害な行動を効果的に引き起こすことを示す。
本研究は,スペースアタックをオープンソース LLM の重要な脅威モデルとして捉えたものである。
- 参考スコア(独自算出の注目度): 19.426618259383126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research in adversarial robustness of LLMs focuses on discrete input
manipulations in the natural language space, which can be directly transferred
to closed-source models. However, this approach neglects the steady progression
of open-source models. As open-source models advance in capability, ensuring
their safety also becomes increasingly imperative. Yet, attacks tailored to
open-source LLMs that exploit full model access remain largely unexplored. We
address this research gap and propose the embedding space attack, which
directly attacks the continuous embedding representation of input tokens. We
find that embedding space attacks circumvent model alignments and trigger
harmful behaviors more efficiently than discrete attacks or model fine-tuning.
Furthermore, we present a novel threat model in the context of unlearning and
show that embedding space attacks can extract supposedly deleted information
from unlearned LLMs across multiple datasets and models. Our findings highlight
embedding space attacks as an important threat model in open-source LLMs.
Trigger Warning: the appendix contains LLM-generated text with violence and
harassment.
- Abstract(参考訳): LLMの対向ロバスト性に関する現在の研究は、自然言語空間における離散的な入力操作に焦点を当てており、これはクローズドソースモデルに直接転送できる。
しかし、このアプローチはオープンソースモデルの安定した進歩を無視している。
オープンソースモデルの能力が向上するにつれ、安全性の確保もますます重要になっている。
しかし、完全なモデルアクセスを利用するオープンソースのllmに合わせた攻撃は、ほとんど未解決である。
本研究のギャップに対処し,入力トークンの連続的な埋め込み表現を直接攻撃する埋め込み空間攻撃を提案する。
組込み空間攻撃はモデルアライメントを回避し、離散的な攻撃やモデルの微調整よりも有害な行動を引き起こす。
さらに,未学習環境における新たな脅威モデルを提案し,組込み空間攻撃が複数のデータセットやモデルにまたがる未学習LLMから削除されたと思われる情報を抽出できることを示す。
本研究は,スペースアタックをオープンソース LLM の重要な脅威モデルとして捉えたものである。
Trigger Warning: 付録には暴力と嫌がらせを伴うLLM生成テキストが含まれている。
関連論文リスト
- Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Detecting AI Flaws: Target-Driven Attacks on Internal Faults in Language Models [27.397408870544453]
大規模言語モデル(LLM)は、人工知能の急速に発展する分野において焦点となっている。
重要な懸念は、これらのモデルの事前学習コーパス内に有毒な物質が存在することであり、不適切な出力が発生する可能性がある。
本稿では,プロンプトを最適化する代わりに,ターゲット応答を直接抽出することに焦点を当てた,ターゲット駆動型攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T08:12:08Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。