論文の概要: Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- arxiv url: http://arxiv.org/abs/2406.05946v1
- Date: Mon, 10 Jun 2024 00:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 15:25:59.253720
- Title: Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- Title(参考訳): 安全アライメントは、ほんの少しの深さ以上のものを作るべきだ
- Authors: Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson,
- Abstract要約: 現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。
比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。
最初の数個のトークン以上の安全性アライメントの強化は、一般的なエクスプロイトに対するロバスト性を大幅に向上させる可能性があることを、私たちは示しています。
- 参考スコア(独自算出の注目度): 48.823599143711235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety alignment of current Large Language Models (LLMs) is vulnerable. Relatively simple attacks, or even benign fine-tuning, can jailbreak aligned models. We argue that many of these vulnerabilities are related to a shared underlying issue: safety alignment can take shortcuts, wherein the alignment adapts a model's generative distribution primarily over only its very first few output tokens. We refer to this issue as shallow safety alignment. In this paper, we present case studies to explain why shallow safety alignment can exist and provide evidence that current aligned LLMs are subject to this issue. We also show how these findings help explain multiple recently discovered vulnerabilities in LLMs, including the susceptibility to adversarial suffix attacks, prefilling attacks, decoding parameter attacks, and fine-tuning attacks. Importantly, we discuss how this consolidated notion of shallow safety alignment sheds light on promising research directions for mitigating these vulnerabilities. For instance, we show that deepening the safety alignment beyond just the first few tokens can often meaningfully improve robustness against some common exploits. Finally, we design a regularized finetuning objective that makes the safety alignment more persistent against fine-tuning attacks by constraining updates on initial tokens. Overall, we advocate that future safety alignment should be made more than just a few tokens deep.
- Abstract(参考訳): 現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。
比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。
安全アライメントはショートカットを取ることができ、アライメントはモデルの生成的分布を、ごく少数の出力トークンのみに適応させる。
我々はこの問題を浅瀬安全アライメントと呼んでいる。
本稿では,なぜ浅層安全アライメントが存在するのかを説明するケーススタディと,現在のLCMがこの問題に対処する証拠を提供する。
また,最近発見されたLDMの脆弱性について,逆サフィックス攻撃に対する感受性,プリフィル攻撃,デコードパラメータ攻撃,微調整攻撃などを説明する上でも有効であることを示す。
重要なことは、この浅層安全アライメントの概念の統合が、これらの脆弱性を緩和するための有望な研究方向性に光を当てることについて論じる。
例えば、最初の数個のトークン以上の安全性アライメントの強化は、いくつかの一般的なエクスプロイトに対する堅牢性を有意義に改善できることが示されています。
最後に,初期トークンの更新を制限することにより,安全アライメントをより永続的にする,正規化された微調整目標を設計する。
全体として、将来の安全性の整合性は、ほんの少しのトークンよりも深いものにすべきだ、と私たちは主張します。
関連論文リスト
- Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。
我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。
次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文 参考訳(メタデータ) (2024-05-15T03:04:05Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。