論文の概要: Coercing LLMs to do and reveal (almost) anything
- arxiv url: http://arxiv.org/abs/2402.14020v1
- Date: Wed, 21 Feb 2024 18:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:09:17.539441
- Title: Coercing LLMs to do and reveal (almost) anything
- Title(参考訳): LLM の実施と公開を (ほとんど) 強制する
- Authors: Jonas Geiping, Alex Stein, Manli Shu, Khalid Saifullah, Yuxin Wen and
Tom Goldstein
- Abstract要約: 大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
- 参考スコア(独自算出の注目度): 80.8601180293558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has recently been shown that adversarial attacks on large language models
(LLMs) can "jailbreak" the model into making harmful statements. In this work,
we argue that the spectrum of adversarial attacks on LLMs is much larger than
merely jailbreaking. We provide a broad overview of possible attack surfaces
and attack goals. Based on a series of concrete examples, we discuss,
categorize and systematize attacks that coerce varied unintended behaviors,
such as misdirection, model control, denial-of-service, or data extraction.
We analyze these attacks in controlled experiments, and find that many of
them stem from the practice of pre-training LLMs with coding capabilities, as
well as the continued existence of strange "glitch" tokens in common LLM
vocabularies that should be removed for security reasons.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)に対する敵対的攻撃は,有害なステートメントを作るためにモデルを「妨害」することができることが示されている。
本研究では, LLMに対する敵対的攻撃のスペクトルは, 単なるジェイルブレイクよりもはるかに大きいと論じる。
可能な攻撃面と攻撃目標を概観する。
一連の具体例に基づいて,誤指示,モデル制御,サービス拒否,データ抽出など,意図せぬ動作を強要する攻撃を論じ,分類し,体系化する。
我々は、これらの攻撃を制御実験で分析し、それらの多くは、コーディング能力を持つLLMの事前訓練の実践と、セキュリティ上の理由から除去されるべき共通LLM語彙における奇妙な"グリッチ"トークンの継続に起因していることを発見した。
関連論文リスト
- Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks [60.7432588386185]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context
Demonstrations [36.61907023057978]
大きな言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、それらの安全性と悪意のあるコンテンツを生成する可能性への懸念が浮上している。
我々は,LLMのアライメント能力を操作する上で,インコンテクスト学習(ICL)の能力について検討する。
In-Context Attack (ICA) と In-Context Defense (ICD) の手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。