論文の概要: Baseline Defenses for Adversarial Attacks Against Aligned Language
Models
- arxiv url: http://arxiv.org/abs/2309.00614v2
- Date: Mon, 4 Sep 2023 17:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 11:49:23.525380
- Title: Baseline Defenses for Adversarial Attacks Against Aligned Language
Models
- Title(参考訳): 言語モデルに対する敵対的攻撃に対するベースライン防御
- Authors: Neel Jain, Avi Schwarzschild, Yuxin Wen, Gowthami Somepalli, John
Kirchenbauer, Ping-yeh Chiang, Micah Goldblum, Aniruddha Saha, Jonas Geiping,
Tom Goldstein
- Abstract要約: 最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
- 参考スコア(独自算出の注目度): 109.75753454188705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models quickly become ubiquitous, it becomes critical to
understand their security vulnerabilities. Recent work shows that text
optimizers can produce jailbreaking prompts that bypass moderation and
alignment. Drawing from the rich body of work on adversarial machine learning,
we approach these attacks with three questions: What threat models are
practically useful in this domain? How do baseline defense techniques perform
in this new domain? How does LLM security differ from computer vision?
We evaluate several baseline defense strategies against leading adversarial
attacks on LLMs, discussing the various settings in which each is feasible and
effective. Particularly, we look at three types of defenses: detection
(perplexity based), input preprocessing (paraphrase and retokenization), and
adversarial training. We discuss white-box and gray-box settings and discuss
the robustness-performance trade-off for each of the defenses considered. We
find that the weakness of existing discrete optimizers for text, combined with
the relatively high costs of optimization, makes standard adaptive attacks more
challenging for LLMs. Future research will be needed to uncover whether more
powerful optimizers can be developed, or whether the strength of filtering and
preprocessing defenses is greater in the LLMs domain than it has been in
computer vision.
- Abstract(参考訳): 大きな言語モデルが急速に普及するにつれて、セキュリティ上の脆弱性を理解することが重要になる。
最近の研究では、テキストオプティマイザがモデレーションとアライメントをバイパスするジェイルブレイクプロンプトを生成できることが示されている。
敵対的機械学習に関する豊富な仕事から、私たちは3つの質問でこれらの攻撃にアプローチする。
この新しいドメインでは、ベースライン防御技術はどのように機能するのか?
LLMのセキュリティはコンピュータビジョンとどう違うのか?
我々は,LLMに対する先進的な攻撃に対する基本的防御戦略を評価し,それぞれが実現可能かつ効果的である様々な設定について議論した。
特に,検出(複雑度ベース),入力前処理(paraphraseとretokenization),逆行訓練の3種類の防御について考察した。
ホワイトボックスとグレイボックスの設定を議論し、検討した各防御のロバスト性・性能上のトレードオフについて論じる。
従来のテキスト用離散最適化器の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
将来の研究は、より強力なオプティマイザを開発できるかどうか、あるいはコンピュータビジョンよりもLLMの領域でフィルタリングと前処理の強度が高いかどうかを明らかにするために必要である。
関連論文リスト
- The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。
本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文 参考訳(メタデータ) (2024-10-09T01:35:38Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Large Language Model Sentinel: LLM Agent for Adversarial Purification [27.461127931996323]
大規模言語モデル(LLM)は、よく設計されたテキストの摂動による敵攻撃に対して脆弱である。
LLAMOS(Large LAnguage Model Sentinel)と呼ばれる新しい防御技術を導入し,LLMの対角的堅牢性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:23:56Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Attack Agnostic Adversarial Defense via Visual Imperceptible Bound [70.72413095698961]
本研究の目的は、目視攻撃と目視攻撃の両方に対して一定の範囲内で堅牢な防衛モデルを設計することである。
提案するディフェンスモデルは,MNIST,CIFAR-10,Tiny ImageNetデータベース上で評価される。
提案アルゴリズムは攻撃非依存であり,攻撃アルゴリズムの知識を必要としない。
論文 参考訳(メタデータ) (2020-10-25T23:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。