論文の概要: Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!
- arxiv url: http://arxiv.org/abs/2402.12343v2
- Date: Wed, 21 Feb 2024 16:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 11:54:31.812942
- Title: Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!
- Title(参考訳): Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!
- Authors: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli
Ouyang, Yu Qiao
- Abstract要約: 推論時アタックフレームワークである Emulated Disalignment を導入する。
アウトプット空間において、トレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせることで、有害な言語モデルを生成する。
本研究は,オープンソース言語モデルの実践を再評価することの重要性を強調した。
- 参考スコア(独自算出の注目度): 68.32720959294761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) need to undergo safety alignment to ensure safe
conversations with humans. However, in this work, we introduce an
inference-time attack framework, demonstrating that safety alignment can also
unintentionally facilitate harmful outcomes under adversarial manipulation.
This framework, named Emulated Disalignment (ED), adversely combines a pair of
open-source pre-trained and safety-aligned language models in the output space
to produce a harmful language model without additional training. Our
experiments with ED across three datasets and four model families (Llama-1,
Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of
pre-trained models and outperforms strong baselines, achieving the highest
harmful rate in 43 out of 48 evaluation subsets by a large margin. Crucially,
our findings highlight the importance of reevaluating the practice of
open-sourcing language models even after safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。
しかし,本研究では,安全アライメントが敵操作下で有害な成果を意図せず促進できることを実証する推論時間攻撃フレームワークを提案する。
Emulated Disalignment (ED)という名前のこのフレームワークは、アウトプット空間でトレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせて、追加のトレーニングなしで有害な言語モデルを生成する。
3つのデータセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)にわたるED実験により、EDはトレーニング済みモデルの有害性を2倍にし、強力なベースラインを上回り、48のサブセットのうち43の有害度を大きなマージンで達成した。
本研究は,安全アライメント後においても,オープンソース言語モデルの実践を再評価することの重要性を強調した。
関連論文リスト
- Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
調査によると、CodeAttackは全モデルの80%以上の安全ガードレールを一貫してバイパスしている。
CodeAttackと自然言語の間の大きな分散ギャップは、安全性の一般化を弱める。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese [21.893992064105085]
大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
論文 参考訳(メタデータ) (2023-10-09T16:03:22Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文 参考訳(メタデータ) (2023-08-25T15:51:15Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。