論文の概要: SOS! Soft Prompt Attack Against Open-Source Large Language Models
- arxiv url: http://arxiv.org/abs/2407.03160v1
- Date: Wed, 3 Jul 2024 14:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:56:35.274885
- Title: SOS! Soft Prompt Attack Against Open-Source Large Language Models
- Title(参考訳): SOS! オープンソースの大規模言語モデルに対するソフトプロンプト攻撃
- Authors: Ziqing Yang, Michael Backes, Yang Zhang, Ahmed Salem,
- Abstract要約: オープンソースの大規模言語モデル(LLM)は、一般大衆と業界の両方で人気が高まっている。
一部のオープンソースLLMは使用前に承認を必要としており、サードパーティが容易にアクセス可能なバージョンを公開している。
我々は、計算要求が低く、クリーンなデータやモデルの重みの変更を必要としない新しいトレーニングタイムアタック、SOSを提案する。
- 参考スコア(独自算出の注目度): 24.641640535665204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source large language models (LLMs) have become increasingly popular among both the general public and industry, as they can be customized, fine-tuned, and freely used. However, some open-source LLMs require approval before usage, which has led to third parties publishing their own easily accessible versions. Similarly, third parties have been publishing fine-tuned or quantized variants of these LLMs. These versions are particularly appealing to users because of their ease of access and reduced computational resource demands. This trend has increased the risk of training time attacks, compromising the integrity and security of LLMs. In this work, we present a new training time attack, SOS, which is designed to be low in computational demand and does not require clean data or modification of the model weights, thereby maintaining the model's utility intact. The attack addresses security issues in various scenarios, including the backdoor attack, jailbreak attack, and prompt stealing attack. Our experimental findings demonstrate that the proposed attack is effective across all evaluated targets. Furthermore, we present the other side of our SOS technique, namely the copyright token -- a novel technique that enables users to mark their copyrighted content and prevent models from using it.
- Abstract(参考訳): オープンソースの大規模言語モデル(LLM)は、カスタマイズ、微調整、自由な使用が可能なため、一般大衆と業界の両方で人気が高まっている。
しかし、一部のオープンソースLLMは使用前に承認を必要としており、サードパーティが容易にアクセスできるバージョンを公開している。
同様に、サードパーティはこれらのLSMの微調整または量子化された変種を公表している。
これらのバージョンは、アクセスの容易さと計算リソースの要求の低減により、特にユーザにとって魅力的である。
この傾向は、LLMの完全性とセキュリティを損なうことなく、トレーニングタイムアタックのリスクを高めている。
本研究では,計算負荷が低く,クリーンなデータやモデル重みの変更を必要とせず,モデルの有用性を維持できる新たなトレーニングタイムアタックであるSOSを提案する。
この攻撃は、バックドア攻撃、ジェイルブレイク攻撃、迅速な盗難攻撃など、さまざまなシナリオにおけるセキュリティ問題に対処する。
実験結果から, 提案した攻撃は全目標に対して有効であることが示唆された。
さらに、当社のSOSテクニックの反対側、すなわち著作権トークン(著作権トークン)を提示します。
関連論文リスト
- A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [25.381528717141684]
大規模言語モデル(LLM)は、人間の言語理解と複雑な問題解決のギャップを埋める。
LLMはセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすい。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Soft Prompt Threats: Attacking Safety Alignment and Unlearning in
Open-Source LLMs through the Embedding Space [19.426618259383126]
本稿では,入力トークンの連続的な埋め込み表現を直接攻撃する埋め込み空間攻撃を提案する。
組込み空間攻撃はモデルアライメントを回避し、離散攻撃やモデル微調整よりも有害な行動を効果的に引き起こすことを示す。
本研究は,スペースアタックをオープンソース LLM の重要な脅威モデルとして捉えたものである。
論文 参考訳(メタデータ) (2024-02-14T10:20:03Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Deep Leakage from Model in Federated Learning [6.001369927772649]
モデル重みの伝達がクライアントのプライベートなローカルデータをリークする可能性を示す2つの新しいフレームワークを提案する。
また,提案攻撃に対する防御策を2つ導入し,その防御効果を評価した。
論文 参考訳(メタデータ) (2022-06-10T05:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。