論文の概要: Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM
- arxiv url: http://arxiv.org/abs/2412.10423v1
- Date: Tue, 10 Dec 2024 12:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:15.379548
- Title: Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM
- Title(参考訳): Leapに先立ち - GuidelineLLMによる有害コンテンツに対する注意と警戒の強化
- Authors: Shaoqing Zhang, Zhuosheng Zhang, Kehai Chen, Rongxiang Weng, Muyun Yang, Tiejun Zhao, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
- 参考スコア(独自算出の注目度): 53.79753074854936
- License:
- Abstract: Despite being empowered with alignment mechanisms, large language models (LLMs) are increasingly vulnerable to emerging jailbreak attacks that can compromise their alignment mechanisms. This vulnerability poses significant risks to the real-world applications. Existing work faces challenges in both training efficiency and generalization capabilities (i.e., Reinforcement Learning from Human Feedback and Red-Teaming). Developing effective strategies to enable LLMs to resist continuously evolving jailbreak attempts represents a significant challenge. To address this challenge, we propose a novel defensive paradigm called GuidelineLLM, which assists LLMs in recognizing queries that may have harmful content. Before LLMs respond to a query, GuidelineLLM first identifies potential risks associated with the query, summarizes these risks into guideline suggestions, and then feeds these guidelines to the responding LLMs. Importantly, our approach eliminates the necessity for additional safety fine-tuning of the LLMs themselves; only the GuidelineLLM requires fine-tuning. This characteristic enhances the general applicability of GuidelineLLM across various LLMs. Experimental results demonstrate that GuidelineLLM can significantly reduce the attack success rate (ASR) against the LLMs (an average reduction of 34.17\% ASR) while maintaining the helpfulness of the LLMs in handling benign queries. Code is available at https://github.com/sqzhang-lazy/GuidelineLLM.
- Abstract(参考訳): アライメントメカニズムが強化されているにも関わらず、大規模言語モデル(LLM)は、アライメントメカニズムを損なう可能性のある、新たなジェイルブレイク攻撃に対して、ますます脆弱になっている。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
既存の作業は、トレーニング効率と一般化能力(つまり、ヒューマンフィードバックからの強化学習とレッドチーム)の両方において課題に直面します。
LLMが継続的に進化するジェイルブレイクの試みに抵抗できる効果的な戦略を開発することは、大きな課題である。
この課題に対処するために、有害なコンテンツを持つ可能性のあるクエリをLLMが認識するのを支援する、ガイドラインLLMと呼ばれる新しい防御パラダイムを提案する。
LLM がクエリに応答する前に、まず GuidelineLLM はクエリに関連する潜在的なリスクを特定し、これらのリスクをガイドラインの提案にまとめ、応答する LLM にこれらのガイドラインをフィードする。
重要な点として,本手法はLLM自体の安全性向上の必要性を排除し,ガイドラインLLMのみを微調整する。
この特徴により、各種LLMにおけるガイドラインLLMの適用性が向上する。
実験結果から、ガイドラインLLMはLLMに対する攻撃成功率(ASR)を著しく低減し(平均34.17\% ASR)、良質なクエリ処理におけるLLMの有用性を維持できることが示された。
コードはhttps://github.com/sqzhang-lazy/GuidelineLLM.comで入手できる。
関連論文リスト
- Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting [6.263011023287022]
命令微調整言語モデル(LLM)の安全性機構について検討する。
我々は,新しいホワイトボックス・ジェイルブレイク法(プロンプト固有法とプロンプト一般法)を開発した。
提案手法は,2Bから72Bまでの7種類のオープンソースLLMに対して,堅牢な性能を示す。
論文 参考訳(メタデータ) (2024-10-14T04:32:22Z) - Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement [32.888016435098045]
大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
論文 参考訳(メタデータ) (2024-07-01T16:55:28Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。