論文の概要: ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2402.11889v1
- Date: Mon, 19 Feb 2024 06:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:05:53.355207
- Title: ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding
- Title(参考訳): ROSEはそうしない: 逆プロンプトコントラストデコーディングによる命令付き大規模言語モデルの安全性を高める
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao
- Abstract要約: 本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 95.49128988683191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of instruction-tuned large language models (LLMs),
improving the safety of LLMs has become more critical. However, the current
approaches for aligning the LLMs output with expected safety usually require
substantial training efforts, e.g., high-quality safety data and expensive
computational resources, which are costly and inefficient. To this end, we
present reverse prompt contrastive decoding (ROSE), a simple-yet-effective
method to directly boost the safety of existing instruction-tuned LLMs without
any additional training. The principle of ROSE is to improve the probability of
desired safe output via suppressing the undesired output induced by the
carefully-designed reverse prompts. Experiments on 6 safety and 2
general-purpose tasks show that, our ROSE not only brings consistent and
significant safety improvements (up to +13.8% safety score) upon 5 types of
instruction-tuned LLMs, but also benefits the general-purpose ability of LLMs.
In-depth analyses explore the underlying mechanism of ROSE, and reveal when and
where to use it.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)の開発により,LLMの安全性の向上がますます重要になっている。
しかしながら、LLMの出力を期待される安全性に合わせるための現在のアプローチは、通常、高品質の安全データや高価な計算資源など、費用がかかり非効率な訓練努力を必要とする。
そこで本研究では,既存の命令調整 LLM の安全性を,追加の訓練を伴わずに直接向上させる,逆プロンプトコントラスト復号法 (ROSE) を提案する。
ROSEの原理は、慎重に設計された逆プロンプトによって引き起こされる望ましくない出力を抑えることにより、所望の安全出力の確率を改善することである。
6つの安全性と2つの汎用タスクに関する実験では、5種類の命令調整llmで一貫性と大幅な安全性向上(最大+13.8%の安全性スコア)をもたらすだけでなく、llmの汎用能力にもメリットがあります。
ROSEの基盤となるメカニズムを詳細に分析し、いつどこで使用するかを明らかにする。
関連論文リスト
- On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output
Robustness of Large Language Models [28.37026309925163]
大きな言語モデル(LLM)は人間の値と一致し、安全なテキストを生成するように設計されている。
以前のJailbreaking LLMのベンチマークでは、主にモデルの安全性の評価に焦点が当てられていた。
本稿では,LLMの安全性とロバスト性を両立させ,バランスの取れたアプローチの必要性を強調した。
論文 参考訳(メタデータ) (2023-07-17T13:49:52Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。