論文の概要: Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!
- arxiv url: http://arxiv.org/abs/2402.12343v2
- Date: Wed, 21 Feb 2024 16:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 11:54:31.812942
- Title: Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!
- Title(参考訳): Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!
- Authors: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli
Ouyang, Yu Qiao
- Abstract要約: 推論時アタックフレームワークである Emulated Disalignment を導入する。
アウトプット空間において、トレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせることで、有害な言語モデルを生成する。
本研究は,オープンソース言語モデルの実践を再評価することの重要性を強調した。
- 参考スコア(独自算出の注目度): 68.32720959294761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) need to undergo safety alignment to ensure safe
conversations with humans. However, in this work, we introduce an
inference-time attack framework, demonstrating that safety alignment can also
unintentionally facilitate harmful outcomes under adversarial manipulation.
This framework, named Emulated Disalignment (ED), adversely combines a pair of
open-source pre-trained and safety-aligned language models in the output space
to produce a harmful language model without additional training. Our
experiments with ED across three datasets and four model families (Llama-1,
Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of
pre-trained models and outperforms strong baselines, achieving the highest
harmful rate in 43 out of 48 evaluation subsets by a large margin. Crucially,
our findings highlight the importance of reevaluating the practice of
open-sourcing language models even after safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。
しかし,本研究では,安全アライメントが敵操作下で有害な成果を意図せず促進できることを実証する推論時間攻撃フレームワークを提案する。
Emulated Disalignment (ED)という名前のこのフレームワークは、アウトプット空間でトレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせて、追加のトレーニングなしで有害な言語モデルを生成する。
3つのデータセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)にわたるED実験により、EDはトレーニング済みモデルの有害性を2倍にし、強力なベースラインを上回り、48のサブセットのうち43の有害度を大きなマージンで達成した。
本研究は,安全アライメント後においても,オープンソース言語モデルの実践を再評価することの重要性を強調した。
関連論文リスト
- AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。
トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。
本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文 参考訳(メタデータ) (2024-07-03T16:03:10Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。
textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。