論文の概要: Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!
- arxiv url: http://arxiv.org/abs/2402.12343v1
- Date: Mon, 19 Feb 2024 18:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:10:51.169718
- Title: Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire!
- Title(参考訳): Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!
- Authors: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli
Ouyang, Yu Qiao
- Abstract要約: 推論時アタックフレームワークである Emulated Disalignment を導入する。
アウトプット空間において、トレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせることで、有害な言語モデルを生成する。
3つのデータセットと4つのモデルファミリーにわたるEDを用いた実験は、EDが事前訓練されたモデルの有害性を2倍にすることを示している。
- 参考スコア(独自算出の注目度): 68.32720959294761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) need to undergo safety alignment to ensure safe
conversations with humans. However, in this work, we introduce an
inference-time attack framework, demonstrating that safety alignment can also
unintentionally facilitate harmful outcomes under adversarial manipulation.
This framework, named Emulated Disalignment (ED), adversely combines a pair of
open-source pre-trained and safety-aligned language models in the output space
to produce a harmful language model without any training. Our experiments with
ED across three datasets and four model families (Llama-1, Llama-2, Mistral,
and Alpaca) show that ED doubles the harmfulness of pre-trained models and
outperforms strong baselines, achieving the highest harmful rate in 43 out of
48 evaluation subsets by a large margin. Crucially, our findings highlight the
importance of reevaluating the practice of open-sourcing language models even
after safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。
しかし,本研究では,安全アライメントが敵操作下で有害な成果を意図せず促進できることを実証する推論時間攻撃フレームワークを提案する。
Emulated Disalignment (ED)という名前のこのフレームワークは、アウトプット空間において、トレーニングなしで有害な言語モデルを生成するために、トレーニング済みと安全に整合したオープンソースの2つの言語モデルを悪用する。
3つのデータセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)にわたるED実験により、EDはトレーニング済みモデルの有害性を2倍にし、強力なベースラインを上回り、48のサブセットのうち43の有害度を大きなマージンで達成した。
本研究は,安全アライメント後においても,オープンソース言語モデルの実践を再評価することの重要性を強調した。
関連論文リスト
- Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Retrieve to Explain: Evidence-driven Predictions with Language Models [0.791663505497707]
Retrieve to Explain (R2E) は、ドキュメントコーパスのエビデンスに基づいた研究質問に対する回答を優先する検索ベースの言語モデルである。
R2Eは、再訓練することなく新しいエビデンスに適応し、自然言語へのテンプレート化を通じて構造化データを組み込むことができる。
本モデルは,臨床治験結果の予測において,業界標準遺伝学的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-06T15:13:17Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文 参考訳(メタデータ) (2023-08-25T15:51:15Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。