論文の概要: Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
- arxiv url: http://arxiv.org/abs/2402.12343v3
- Date: Wed, 3 Apr 2024 12:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:08:00.177728
- Title: Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
- Title(参考訳): Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!
- Authors: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao,
- Abstract要約: 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。
本稿では,安全アライメントを逆転し,有害な言語モデルを生成することを実証する推論時アタック手法を提案する。
- 参考スコア(独自算出の注目度): 65.06450319194454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) need to undergo safety alignment to ensure safe conversations with humans. However, this paper introduces an inference-time attack method, demonstrating that safety alignment can be easily reversed to produce harmful language models without additional training. Specifically, this reversal is achieved by contrasting the output token distribution of a safety-aligned language model (e.g., Llama-2-chat) against its pre-trained version (e.g., Llama-2) so that the token predictions are shifted towards the opposite direction of alignment. We name this method emulated disalignment (ED) because it uses pure sampling to provably emulate (or "approximate") the result of fine-tuning the pre-trained model to minimize a safety reward. Our experiments with ED across three evaluation datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rate in 43 out of 48 evaluation subsets by a large margin. Eventually, given ED's need for language model output token distributions, which particularly compromises open-source models, our findings highlight the importance of reevaluating the practice of open-sourcing language models even after safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。
しかし,本研究では,安全アライメントを容易に逆転させて有害な言語モデルを生成するための推論時攻撃法を提案する。
具体的には、安全整列言語モデル(例えば、Llama-2-chat)の出力トークン分布を、事前訓練されたバージョン(eg、Llama-2)と対比することにより、トークン予測をアライメントの反対方向にシフトさせる。
本手法は,安全報酬を最小限に抑えるために,トレーニング済みモデルを微調整した結果,純粋なサンプリング(あるいは「近似」)を有効にエミュレートするため,不整合(ED)をエミュレートする。
3つの評価データセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)で実験した結果,EDはトレーニング済みモデルの有害度を2倍にし,強いベースラインを上回り,48の評価サブセットのうち43の有害度を大きなマージンで達成した。
最終的に、オープンソースモデルに特に影響を及ぼす言語モデル出力トークン分布の必要性を考えると、安全アライメント後も、オープンソース言語モデルの実践を再評価することの重要性が浮き彫りになる。
関連論文リスト
- Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Retrieve to Explain: Evidence-driven Predictions with Language Models [0.791663505497707]
Retrieve to Explain (R2E) は、ドキュメントコーパスのエビデンスに基づいた研究質問に対する回答を優先する検索ベースの言語モデルである。
R2Eは、再訓練することなく新しいエビデンスに適応し、自然言語へのテンプレート化を通じて構造化データを組み込むことができる。
本モデルは,臨床治験結果の予測において,業界標準遺伝学的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-06T15:13:17Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文 参考訳(メタデータ) (2023-08-25T15:51:15Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。