論文の概要: MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
- arxiv url: http://arxiv.org/abs/2311.07689v1
- Date: Mon, 13 Nov 2023 19:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:30:15.324681
- Title: MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
- Title(参考訳): MART:マルチラウンド自動レッドチームによるLCMの安全性向上
- Authors: Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan
Wang, Jiawei Han, Yuning Mao
- Abstract要約: 本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
- 参考スコア(独自算出の注目度): 72.2127916030909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Red-teaming is a common practice for mitigating unsafe behaviors in Large
Language Models (LLMs), which involves thoroughly assessing LLMs to identify
potential flaws and addressing them with responsible and accurate responses.
While effective, manual red-teaming is costly, and existing automatic
red-teaming typically discovers safety risks without addressing them. In this
paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which
incorporates both automatic adversarial prompt writing and safe response
generation, significantly increasing red-teaming scalability and the safety of
the target LLM. Specifically, an adversarial LLM and a target LLM interplay
with each other in an iterative manner, where the adversarial LLM aims to
generate challenging prompts that elicit unsafe responses from the target LLM,
while the target LLM is fine-tuned with safety aligned data on these
adversarial prompts. In each round, the adversarial LLM crafts better attacks
on the updated target LLM, while the target LLM also improves itself through
safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an
LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART,
achieving comparable performance to LLMs with extensive adversarial prompt
writing. Notably, model helpfulness on non-adversarial prompts remains stable
throughout iterations, indicating the target LLM maintains strong performance
on instruction following.
- Abstract(参考訳): レッドチーム(Red-teaming)は、LLM(Large Language Models)において、潜在的な欠陥を特定するためにLLMを徹底的に評価し、責任と正確な応答で対処する、安全でない行動を緩和する一般的なプラクティスである。
有効ではあるが、手動の赤チーム化はコストがかかり、既存の自動赤チーム化は通常、対処せずに安全性のリスクを発見する。
本稿では,マルチラウンド自動レッドチーム(MART)方式を提案する。この方式は,自動対向的なプロンプト書き込みと安全な応答生成を両立させ,レッドチームのスケーラビリティと目標LLMの安全性を著しく向上させる。
具体的には、敵LLMとターゲットLLMが反復的に相互に相互作用し、敵LLMは、ターゲットLLMから安全でない応答を誘発する挑戦的なプロンプトを生成し、ターゲットLLMは、これらのプロンプトに対して安全に整合したデータで微調整される。
各ラウンドにおいて、敵LLMは更新された目標LLMに対してより良い攻撃を行う一方、目標LLMは安全性の微調整によって自身を改善する。
対向プロンプトベンチマークでは、安全性アライメントが制限されたllmの違反率は、4回のマートの後最大84.7%まで減少し、幅広い対向プロンプト書き込みでllmと同等の性能を達成している。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持している。
関連論文リスト
- Automated Progressive Red Teaming [38.723546092060666]
手動のレッドチーム化は時間がかかり、コストがかかり、スケーラビリティが欠如しています。
我々は,効果的に学習可能なフレームワークとして,APRT(Automated Progressive Red Teaming)を提案する。
APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、敵のプロンプトを製作するインテンションハイディングLDM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。
論文 参考訳(メタデータ) (2024-07-04T12:14:27Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability [25.750371424096436]
大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。
我々の研究は、既存の防衛戦略がLLMに主に拒絶指向の姿勢を採用することを示唆している。
ユーザビリティを保ちつつ,LLMの安全性を高めるために設計されたMoGUフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T12:19:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。