論文の概要: Robustifying Safety-Aligned Large Language Models through Clean Data Curation
- arxiv url: http://arxiv.org/abs/2405.19358v2
- Date: Fri, 31 May 2024 02:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:54:00.218414
- Title: Robustifying Safety-Aligned Large Language Models through Clean Data Curation
- Title(参考訳): クリーンデータキュレーションによる安全に配慮した大規模言語モデルのロバスト化
- Authors: Xiaoqun Liu, Jiacheng Liang, Muchao Ye, Zhaohan Xi,
- Abstract要約: 大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.273749179260468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are vulnerable when trained on datasets containing harmful content, which leads to potential jailbreaking attacks in two scenarios: the integration of harmful texts within crowdsourced data used for pre-training and direct tampering with LLMs through fine-tuning. In both scenarios, adversaries can compromise the safety alignment of LLMs, exacerbating malfunctions. Motivated by the need to mitigate these adversarial influences, our research aims to enhance safety alignment by either neutralizing the impact of malicious texts in pre-training datasets or increasing the difficulty of jailbreaking during downstream fine-tuning. In this paper, we propose a data curation framework designed to counter adversarial impacts in both scenarios. Our method operates under the assumption that we have no prior knowledge of attack details, focusing solely on curating clean texts. We introduce an iterative process aimed at revising texts to reduce their perplexity as perceived by LLMs, while simultaneously preserving their text quality. By pre-training or fine-tuning LLMs with curated clean texts, we observe a notable improvement in LLM robustness regarding safety alignment against harmful queries. For instance, when pre-training LLMs using a crowdsourced dataset containing 5\% harmful instances, adding an equivalent amount of curated texts significantly mitigates the likelihood of providing harmful responses in LLMs and reduces the attack success rate by 71\%. Our study represents a significant step towards mitigating the risks associated with training-based jailbreaking and fortifying the secure utilization of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性があるため、2つのシナリオで脱獄攻撃が起こる可能性がある。
どちらのシナリオでも、敵はLLMの安全アライメントを妥協し、誤動作を悪化させる可能性がある。
本研究は、これらの敵対的影響を軽減することの必要性から、事前学習データセットにおける悪意のあるテキストの影響を中和するか、下流の微調整中のジェイルブレイクの難しさを増大させることにより、安全性の整合性を高めることを目的としている。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
本手法は,クリーンテキストのキュレーションにのみ焦点をあてて,攻撃詳細に関する事前の知識がないという前提の下で機能する。
テキストの品質を同時に保ちつつ,LLMが認識する難易度を低減するために,テキストの修正を目的とした反復的プロセスを導入する。
クリーンテキストの事前学習や微調整により,有害なクエリに対する安全性アライメントに関するLCMのロバスト性の顕著な改善が観察された。
例えば、5\%の有害なインスタンスを含むクラウドソースデータセットを使用したLLMの事前トレーニングでは、同等量のキュレートされたテキストがLLMに有害な応答を与える可能性を大幅に軽減し、攻撃成功率を71\%削減する。
本研究は, 訓練による脱獄のリスクを軽減し, LLMの安全性を高めるための重要なステップである。
関連論文リスト
- Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Data to Defense: The Role of Curation in Customizing LLMs Against Jailbreaking Attacks [13.381678819086469]
大規模言語モデル(LLM)は、カスタマイズと呼ばれるプロセスである微調整を通じて下流アプリケーションに広く適用されている。
悪意のあるサンプルは、LSMの堅牢性を損なう可能性があり、有害な振る舞いを増幅する。
本稿では,任意のテキストをキュレーションして,カスタマイズ時に有害なサンプルを防止できる適応型データキュレーション手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T05:24:38Z) - Course-Correction: Safety Alignment Using Synthetic Preferences [17.897817682322053]
定量的評価のためのtextscC$2$-Eval ベンチマークを導入し,10のポピュラー言語モデルを解析する。
自動パイプラインを使用して、750Kペアの好みを持つ合成データセットであるtextscC$2$-Synを作成する。
2つのLLM, textscLlama2-Chat 7B と textscQwen2 7B の実験により, 一般性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。
論文 参考訳(メタデータ) (2024-07-23T16:54:28Z) - A Framework for Real-time Safeguarding the Text Generation of Large Language Model [12.683042228674694]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つ。
有害なコンテンツを発生させる傾向にあるため、倫理的・社会的リスクが生じる。
LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。
論文 参考訳(メタデータ) (2024-04-29T18:40:01Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。