論文の概要: Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game
- arxiv url: http://arxiv.org/abs/2404.02532v1
- Date: Wed, 3 Apr 2024 07:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:10:13.060169
- Title: Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game
- Title(参考訳): ディグライズを学ぶ:マルチエージェントアタッカー・ディグライザーゲームによるLLMの防御における拒絶反応の回避
- Authors: Qianqiao Xu, Zhiliang Tian, Hongyan Wu, Zhen Huang, Yiping Song, Feng Liu, Dongsheng Li,
- Abstract要約: 悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。
大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。
本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
- 参考スコア(独自算出の注目度): 28.33029508522531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the enhanced performance of large models on natural language processing tasks, potential moral and ethical issues of large models arise. There exist malicious attackers who induce large models to jailbreak and generate information containing illegal, privacy-invasive information through techniques such as prompt engineering. As a result, large models counter malicious attackers' attacks using techniques such as safety alignment. However, the strong defense mechanism of the large model through rejection replies is easily identified by attackers and used to strengthen attackers' capabilities. In this paper, we propose a multi-agent attacker-disguiser game approach to achieve a weak defense mechanism that allows the large model to both safely reply to the attacker and hide the defense intent. First, we construct a multi-agent framework to simulate attack and defense scenarios, playing different roles to be responsible for attack, disguise, safety evaluation, and disguise evaluation tasks. After that, we design attack and disguise game algorithms to optimize the game strategies of the attacker and the disguiser and use the curriculum learning process to strengthen the capabilities of the agents. The experiments verify that the method in this paper is more effective in strengthening the model's ability to disguise the defense intent compared with other methods. Moreover, our approach can adapt any black-box large model to assist the model in defense and does not suffer from model version iterations.
- Abstract(参考訳): 自然言語処理タスクにおける大規模モデルのパフォーマンスの向上により、大規模モデルの潜在的な道徳的および倫理的問題が発生する。
ジェイルブレイクに大規模なモデルを誘導し、プロンプトエンジニアリングのような技術を通じて、違法でプライバシーに侵害された情報を含む情報を生成する悪意のある攻撃者が存在する。
その結果、大規模なモデルは、安全アライメントなどの技術を用いて悪意ある攻撃者の攻撃に対抗している。
しかし、拒否応答による大型モデルの強力な防御機構は、攻撃者によって容易に識別され、攻撃者の能力を強化するために使用される。
本稿では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
まず,攻撃・防衛シナリオをシミュレートするマルチエージェント・フレームワークを構築し,攻撃・偽装・安全評価・疑似評価タスクに責任を負う様々な役割を演じる。
その後、攻撃者および偽装者のゲーム戦略を最適化するために攻撃と偽装ゲームアルゴリズムを設計し、カリキュラム学習プロセスを用いてエージェントの能力を強化する。
実験により, 本手法は, 他の手法と比較して, 防御意図を偽装するモデルの能力を高めるのに有効であることが確認された。
さらに,本手法では,ブラックボックスの大型モデルに対して,防御的モデルを支援することができ,モデルバージョンイテレーションに支障を来さない。
関連論文リスト
- Versatile Defense Against Adversarial Attacks on Image Recognition [2.9980620769521513]
現実の環境での敵の攻撃に対する防御は、アンチウイルスソフトの動作方法と比較することができる。
画像から画像への翻訳をベースとした防御手法が実現可能であると考えられる。
訓練されたモデルは、分類精度をほぼゼロから平均86%に改善した。
論文 参考訳(メタデータ) (2024-03-13T01:48:01Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Efficient Defense Against Model Stealing Attacks on Convolutional Neural
Networks [0.548924822963045]
モデル盗難攻撃は知的財産の盗難や他のセキュリティやプライバシーのリスクにつながる可能性がある。
モデル盗難攻撃に対する現在の最先端の防御は、予測確率に摂動を加えることを示唆している。
我々は、シンプルで効果的で効率的な防衛代替案を提案する。
論文 参考訳(メタデータ) (2023-09-04T22:25:49Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - I Know What You Trained Last Summer: A Survey on Stealing Machine
Learning Models and Defences [0.1031296820074812]
本研究では,モデル盗難攻撃について検討し,その性能を評価し,異なる環境で対応する防御技術を探究する。
攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛を選択する方法に関するガイドラインを提供する。
論文 参考訳(メタデータ) (2022-06-16T21:16:41Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。