Fugu-MT 論文翻訳(概要): Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

論文の概要: Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

arxiv url: http://arxiv.org/abs/2402.12343v1
Date: Mon, 19 Feb 2024 18:16:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 15:10:51.169718
Title: Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
Title（参考訳）: Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!
Authors: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
Abstract要約: 推論時アタックフレームワークである Emulated Disalignment を導入する。アウトプット空間において、トレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせることで、有害な言語モデルを生成する。 3つのデータセットと4つのモデルファミリーにわたるEDを用いた実験は、EDが事前訓練されたモデルの有害性を2倍にすることを示している。
参考スコア（独自算出の注目度）: 68.32720959294761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) need to undergo safety alignment to ensure safe conversations with humans. However, in this work, we introduce an inference-time attack framework, demonstrating that safety alignment can also unintentionally facilitate harmful outcomes under adversarial manipulation. This framework, named Emulated Disalignment (ED), adversely combines a pair of open-source pre-trained and safety-aligned language models in the output space to produce a harmful language model without any training. Our experiments with ED across three datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rate in 43 out of 48 evaluation subsets by a large margin. Crucially, our findings highlight the importance of reevaluating the practice of open-sourcing language models even after safety alignment.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。しかし,本研究では,安全アライメントが敵操作下で有害な成果を意図せず促進できることを実証する推論時間攻撃フレームワークを提案する。 Emulated Disalignment (ED)という名前のこのフレームワークは、アウトプット空間において、トレーニングなしで有害な言語モデルを生成するために、トレーニング済みと安全に整合したオープンソースの2つの言語モデルを悪用する。 3つのデータセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)にわたるED実験により、EDはトレーニング済みモデルの有害性を2倍にし、強力なベースラインを上回り、48のサブセットのうち43の有害度を大きなマージンで達成した。本研究は,安全アライメント後においても,オープンソース言語モデルの実践を再評価することの重要性を強調した。

関連論文リスト

STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model [71.35577462669856]
拡散言語モデル(DLM)を用いた頑健で確実な言語ステガノグラフィーを提案する。ステガノグラフ抽出中に擬似ランダム誤り訂正や近傍探索補正を含む誤り訂正戦略を導入する。
論文参考訳（メタデータ） (2026-01-21T08:58:12Z)
SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection [16.38885847999291]
セーフアライメントトレーニングを備えた大規模言語モデル(LLM)は、堅牢な言語理解能力を備えた強力な機器である。 2つの中間層を$s$と$e$で接続し、残余接続を通じて$s e$と$e$を接続する新しいホワイトボックスジェイルブレイク手法であるSABERを導入する。提案手法は,HarmBenchテストセット上での最高性能ベースラインよりも51%向上する。
論文参考訳（メタデータ） (2025-09-19T15:10:19Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens [26.119521867045616]
モデルの語彙を特別な赤いフラグトークンで拡張することを提案する。有害なコンテンツが生成または差し迫ったときに、このトークンを挿入するようにモデルをトレーニングします。このアプローチは,既存の安全技術と補完するものだ。
論文参考訳（メタデータ） (2025-02-22T21:48:48Z)
Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。 LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文参考訳（メタデータ） (2025-01-27T22:13:05Z)
AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文参考訳（メタデータ） (2024-09-11T00:00:58Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文参考訳（メタデータ） (2024-07-03T16:03:10Z)
Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。 textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文参考訳（メタデータ） (2024-04-01T18:10:05Z)
Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (2024-01-31T07:26:47Z)
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。 5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文参考訳（メタデータ） (2023-10-04T16:39:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。