論文の概要: Stealthy and Persistent Unalignment on Large Language Models via
Backdoor Injections
- arxiv url: http://arxiv.org/abs/2312.00027v1
- Date: Wed, 15 Nov 2023 23:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 04:05:21.024030
- Title: Stealthy and Persistent Unalignment on Large Language Models via
Backdoor Injections
- Title(参考訳): バックドアインジェクションによる大規模言語モデルのステルス性と永続性
- Authors: Yuanpu Cao, Bochuan Cao, Jinghui Chen
- Abstract要約: バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
- 参考スコア(独自算出の注目度): 19.659753347484823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Large Language Models (LLMs) have manifested
significant advancements. To facilitate safeguards against malicious
exploitation, a body of research has concentrated on aligning LLMs with human
preferences and inhibiting their generation of inappropriate content.
Unfortunately, such alignments are often vulnerable: fine-tuning with a minimal
amount of harmful data can easily unalign the target LLM. While being
effective, such fine-tuning-based unalignment approaches also have their own
limitations: (1) non-stealthiness, after fine-tuning, safety audits or
red-teaming can easily expose the potential weaknesses of the unaligned models,
thereby precluding their release/use. (2) non-persistence, the unaligned LLMs
can be easily repaired through re-alignment, i.e., fine-tuning again with
aligned data points. In this work, we show that it is possible to conduct
stealthy and persistent unalignment on large language models via backdoor
injections. We also provide a novel understanding on the relationship between
the backdoor persistence and the activation pattern and further provide
guidelines for potential trigger design. Through extensive experiments, we
demonstrate that our proposed stealthy and persistent unalignment can
successfully pass the safety evaluation while maintaining strong persistence
against re-alignment defense.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の発展は著しい進歩を見せている。
悪意ある搾取に対する保護を促進するため、研究機関はLLMを人間の好みに合わせることに集中し、不適切な内容の生成を抑制する。
残念なことに、このようなアライメントはしばしば脆弱で、最小限の有害なデータによる微調整は、標的のLSMを容易に無視することができる。
効果的である一方で、このような微調整ベースの不一致アプローチには、それぞれ独自の制限がある。(1) 微調整後、安全監査またはレッドチーム化は、非整合モデルの潜在的な弱点を露呈し易くし、リリース/使用を妨げている。
2)非永続性、不整合LPMは、再整合、すなわち、整合したデータポイントで再度微調整することで容易に修復できる。
本研究では,バックドアインジェクションによって,大規模言語モデルに対してステルス的かつ永続的なアンアレンメントを行うことが可能であることを示す。
また、バックドアの持続性とアクティベーションパターンとの関係についての新しい理解を提供し、さらに潜在的なトリガ設計のためのガイドラインを提供する。
広範な実験により,提案するステルス性および持続性不一致が,再防衛に対する強い永続性を維持しつつ,安全性評価を合格できることを実証した。
関連論文リスト
- AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment [23.460024089845408]
本稿では,プロンプト固有のバックドアを自動的に生成する,逆向きに強化された生成ファインチューニングフレームワークであるAdvBDGenを提案する。
AdvBDGenは、バックドアのインストール性とステルス性を確保するために、敵によって強化されたジェネレータと差別器のペアを使用している。
論文 参考訳(メタデータ) (2024-10-15T05:05:56Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [23.16217797677075]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。
RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文 参考訳(メタデータ) (2023-09-18T02:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。