Fugu-MT 論文翻訳(概要): MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

論文の概要: MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

arxiv url: http://arxiv.org/abs/2311.07689v1
Date: Mon, 13 Nov 2023 19:13:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 16:30:15.324681
Title: MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
Title（参考訳）: MART:マルチラウンド自動レッドチームによるLCMの安全性向上
Authors: Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao
Abstract要約: 本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
参考スコア（独自算出の注目度）: 72.2127916030909
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.
Abstract（参考訳）: レッドチーム(Red-teaming)は、LLM(Large Language Models)において、潜在的な欠陥を特定するためにLLMを徹底的に評価し、責任と正確な応答で対処する、安全でない行動を緩和する一般的なプラクティスである。有効ではあるが、手動の赤チーム化はコストがかかり、既存の自動赤チーム化は通常、対処せずに安全性のリスクを発見する。本稿では,マルチラウンド自動レッドチーム(MART)方式を提案する。この方式は,自動対向的なプロンプト書き込みと安全な応答生成を両立させ,レッドチームのスケーラビリティと目標LLMの安全性を著しく向上させる。具体的には、敵LLMとターゲットLLMが反復的に相互に相互作用し、敵LLMは、ターゲットLLMから安全でない応答を誘発する挑戦的なプロンプトを生成し、ターゲットLLMは、これらのプロンプトに対して安全に整合したデータで微調整される。各ラウンドにおいて、敵LLMは更新された目標LLMに対してより良い攻撃を行う一方、目標LLMは安全性の微調整によって自身を改善する。対向プロンプトベンチマークでは、安全性アライメントが制限されたllmの違反率は、4回のマートの後最大84.7%まで減少し、幅広い対向プロンプト書き込みでllmと同等の性能を達成している。特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持している。

関連論文リスト

From Insight to Exploit: Leveraging LLM Collaboration for Adaptive Adversarial Text Generation [3.75886080255807]
動的かつ適応的な敵の例を生成するために設計された2つの革新的な攻撃フレームワークを導入する。我々は、原文と意味的類似性を保持する微妙で自然な逆入力を生成する。我々の攻撃はLSMの進歩とともに進化し、攻撃者には未知の強い伝達性を示す。
論文参考訳（メタデータ） (2025-11-05T02:27:56Z)
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。 VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文参考訳（メタデータ） (2025-02-14T08:44:43Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
Automated Progressive Red Teaming [38.723546092060666]
手動のレッドチーム化は時間がかかり、コストがかかり、スケーラビリティが欠如しています。我々は,効果的に学習可能なフレームワークとして,APRT(Automated Progressive Red Teaming)を提案する。 APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、敵のプロンプトを製作するインテンションハイディングLDM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。
論文参考訳（メタデータ） (2024-07-04T12:14:27Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability [25.750371424096436]
大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。我々の研究は、既存の防衛戦略がLLMに主に拒絶指向の姿勢を採用することを示唆している。ユーザビリティを保ちつつ,LLMの安全性を高めるために設計されたMoGUフレームワークを紹介する。
論文参考訳（メタデータ） (2024-05-23T12:19:59Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。