Fugu-MT 論文翻訳(概要): Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

論文の概要: Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

arxiv url: http://arxiv.org/abs/2308.09662v3
Date: Wed, 30 Aug 2023 10:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 16:25:55.382840
Title: Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment
Title（参考訳）: 安全アライメントのための発話連鎖を用いた大規模言語モデルの再編成
Authors: Rishabh Bhardwaj, Soujanya Poria
Abstract要約: 我々は,新しい安全評価ベンチマークRED-EVALを提案する。広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
参考スコア（独自算出の注目度）: 32.2246459413988
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Larger language models (LLMs) have taken the world by storm with their massive multi-tasking capabilities simply by optimizing over a next-word prediction objective. With the emergence of their properties and encoded knowledge, the risk of LLMs producing harmful outputs increases, making them unfit for scalable deployment for the public. In this work, we propose a new safety evaluation benchmark RED-EVAL that carries out red-teaming. We show that even widely deployed models are susceptible to the Chain of Utterances-based (CoU) prompting, jailbreaking closed source LLM-based systems such as GPT-4 and ChatGPT to unethically respond to more than 65% and 73% of harmful queries. We also demonstrate the consistency of the RED-EVAL across 8 open-source LLMs in generating harmful responses in more than 86% of the red-teaming attempts. Next, we propose RED-INSTRUCT--An approach for the safety alignment of LLMs. It constitutes two phases: 1) HARMFULQA data collection: Leveraging CoU prompting, we collect a dataset that consists of 1.9K harmful questions covering a wide range of topics, 9.5K safe and 7.3K harmful conversations from ChatGPT; 2) SAFE-ALIGN: We demonstrate how the conversational dataset can be used for the safety alignment of LLMs by minimizing the negative log-likelihood over helpful responses and penalizing over harmful responses by gradient accent over sample loss. Our model STARLING, a fine-tuned Vicuna-7B, is observed to be more safely aligned when evaluated on RED-EVAL and HHH benchmarks while preserving the utility of the baseline models (TruthfulQA, MMLU, and BBH).
Abstract（参考訳）: 大きな言語モデル(llm)は、次の単語予測目標を最適化するだけで、巨大なマルチタスク機能で世界を席巻した。それらの特性と符号化された知識が出現すると、有害なアウトプットを生み出すLSMのリスクが増大し、一般向けに拡張性のあるデプロイメントには適さない。本研究では,red-teamingを行う新しい安全性評価ベンチマークであるred-evalを提案する。 GPT-4 や ChatGPT のようなクローズドソース LLM ベースのシステムを非倫理的に応答し,有害なクエリの 65% 以上と 73% 以上に対して,広くデプロイされたモデルでさえ,CoU (Chain of Utterances) の影響を受けることを示す。また, RED-EVAL が8つのオープンソース LLM にまたがる一貫性を実証し, レッドチームの86%以上で有害な応答を発生させることを示した。次に,安全アライメントのためのred-instruct-anアプローチを提案する。 2つの段階を構成する。 1) HARMFULQAデータ収集:CoUを活用することで、幅広いトピックをカバーする1.9Kの有害な質問、9.5Kの安全、7.3KのChatGPTからの有害な会話からなるデータセットを収集する。 2)SAFE-ALIGN: 負の対数類似度を有用な応答よりも最小化し, サンプル損失よりも勾配アクセントにより有害な応答をペナルティ化することにより, LLMの安全アライメントに会話データセットをいかに活用できるかを実証する。我々のモデルSTARling, 微調整Vicuna-7Bは, RED-EVALおよびHHHベンチマークにおいて, ベースラインモデル(TruthfulQA, MMLU, BBH)の有用性を保ちながら, より安全に整列することが観察された。

関連論文リスト

Improving LLM-Assisted Secure Code Generation through Retrieval-Augmented-Generation and Multi-Tool Feedback [1.1017250479834206]
大きな言語モデル(LLM)はコードを生成することができるが、セキュリティ上の脆弱性、論理的不整合、コンパイルエラーをしばしば導入する。本稿では,1つのコード生成LLMが反復的に出力を洗練する検索拡張型マルチツール修復ワークフローを提案する。
論文参考訳（メタデータ） (2026-01-01T23:34:00Z)
RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。 LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文参考訳（メタデータ） (2025-10-06T19:20:43Z)
Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding [19.92751862281067]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。 textbfHarmful textbfPrompt textbfLaundering (HaPLa)を提案する。
論文参考訳（メタデータ） (2025-09-13T18:07:56Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。 LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文参考訳（メタデータ） (2024-11-13T18:44:30Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文参考訳（メタデータ） (2024-09-26T01:24:17Z)
Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-09-18T08:04:24Z)
Conversational Complexity for Assessing Risk in Large Language Models [8.552688712751232]
大規模言語モデル(LLM)は、有害な可能性を秘めつつ、有益なアプリケーションを可能にする。 2023年、ジャーナリストのケビン・ルース(Kevin Roose)がLLMの検索エンジンであるBingと対話した。 LLMから有害な情報を引き出すには、どの程度の会話努力が必要か? 本稿では,会話長(CL)と会話複雑度(CC)の2つの尺度を提案する。
論文参考訳（メタデータ） (2024-09-02T13:29:44Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。 ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文参考訳（メタデータ） (2024-06-20T15:12:27Z)
OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。 OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文参考訳（メタデータ） (2024-05-31T15:44:33Z)
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文参考訳（メタデータ） (2024-03-01T03:29:54Z)
LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks [17.522223535347905]
大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。 SecLLMHolmesは,LLMがセキュリティ関連のバグを確実に識別し,原因を判断できるかどうか,これまでで最も詳細な調査を行う,完全に自動化された評価フレームワークである。
論文参考訳（メタデータ） (2023-12-19T20:19:43Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。