論文の概要: Large Language Model Sentinel: Advancing Adversarial Robustness by LLM Agent
- arxiv url: http://arxiv.org/abs/2405.20770v1
- Date: Fri, 24 May 2024 07:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:28:54.670816
- Title: Large Language Model Sentinel: Advancing Adversarial Robustness by LLM Agent
- Title(参考訳): 大規模言語モデルセンチネル:LLMエージェントによる対向ロバスト性の向上
- Authors: Guang Lin, Qibin Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、よく設計されたテキストの摂動による敵攻撃に対して脆弱である。
LLAMOS(Large LAnguage Model Sentinel)と呼ばれる新しい防御技術を導入し,LLMの対角的堅牢性を高める。
- 参考スコア(独自算出の注目度): 27.461127931996323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past two years, the use of large language models (LLMs) has advanced rapidly. While these LLMs offer considerable convenience, they also raise security concerns, as LLMs are vulnerable to adversarial attacks by some well-designed textual perturbations. In this paper, we introduce a novel defense technique named Large LAnguage MOdel Sentinel (LLAMOS), which is designed to enhance the adversarial robustness of LLMs by purifying the adversarial textual examples before feeding them into the target LLM. Our method comprises two main components: a) Agent instruction, which can simulate a new agent for adversarial defense, altering minimal characters to maintain the original meaning of the sentence while defending against attacks; b) Defense guidance, which provides strategies for modifying clean or adversarial examples to ensure effective defense and accurate outputs from the target LLMs. Remarkably, the defense agent demonstrates robust defensive capabilities even without learning from adversarial examples. Additionally, we conduct an intriguing adversarial experiment where we develop two agents, one for defense and one for defense, and engage them in mutual confrontation. During the adversarial interactions, neither agent completely beat the other. Extensive experiments on both open-source and closed-source LLMs demonstrate that our method effectively defends against adversarial attacks, thereby enhancing adversarial robustness.
- Abstract(参考訳): 過去2年間で、大規模言語モデル(LLM)の使用は急速に進歩した。
これらのLSMは、かなりの利便性を提供するが、LSMは、よく設計されたテキストの摂動による敵の攻撃に弱いため、セキュリティ上の懸念も引き起こす。
本稿では,Large LAnguage Model Sentinel (LLAMOS) という新しい防御技術を紹介する。
本手法は2つの主成分から構成される。
イ 敵防衛のための新しいエージェントをシミュレートし、最小限の文字を変更して、攻撃に対して防御しながら、文の本来の意味を維持することができる代理人指示
ロ 目標LLMの効果的な防衛及び正確な出力を確保するため、清潔又は敵の事例を変更するための戦略を提供する防衛指針
注目すべきは、敵の例から学ばなくても、防御剤は堅牢な防御能力を示すことである。
さらに,防衛のためのエージェントと防衛のためのエージェントを2つ開発し,相互の対立に携わる,興味深い対人実験を実施している。
敵対的相互作用の間、どちらのエージェントも互いに完全に打ち負かした。
オープンソース LLM およびクローズドソース LLM の広範な実験により,本手法は敵攻撃に対して効果的に防御し,敵の堅牢性を向上することを示した。
関連論文リスト
- Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
LLMが有害な情報を生み出すのを防ぐために、いくつかの主要な防衛戦略が提案されている。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Ares: A System-Oriented Wargame Framework for Adversarial ML [3.197282271064602]
Aresは、現実的なウォーゲームのような環境で、研究者が攻撃や防御を探索できる敵MLの評価フレームワークである。
アレスは、攻撃者とディフェンダーの間の対立を、反対の目的を持つ強化学習環境における2つのエージェントとして表している。
これにより、障害発生までの時間や複雑な戦略の評価など、システムレベルの評価指標が導入される。
論文 参考訳(メタデータ) (2022-10-24T04:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。