論文の概要: Making Harmful Behaviors Unlearnable for Large Language Models
- arxiv url: http://arxiv.org/abs/2311.02105v1
- Date: Thu, 2 Nov 2023 09:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:38:24.288113
- Title: Making Harmful Behaviors Unlearnable for Large Language Models
- Title(参考訳): 大規模言語モデルにおける有害行動の理解不能化
- Authors: Xin Zhou, Yi Lu, Ruotian Ma, Tao Gui, Qi Zhang, Xuanjing Huang
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.44915524846857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential as general-purpose AI
assistants in various domains. To meet the requirements of different
applications, LLMs are often customized by further fine-tuning. However, the
powerful learning ability of LLMs not only enables them to acquire new tasks
but also makes them susceptible to learning undesired behaviors. For example,
even safety-aligned LLMs can be easily fine-tuned into harmful assistants as
the fine-tuning data often contains implicit or explicit harmful content. Can
we train LLMs on harmful data without learning harmful behaviors? This paper
proposes a controllable training framework that makes harmful behaviors
unlearnable during the fine-tuning process. Specifically, we introduce
``security vectors'', a few new parameters that can be separated from the LLM,
to ensure LLM's responses are consistent with the harmful behavior. Security
vectors are activated during fine-tuning, the consistent behavior makes LLM
believe that such behavior has already been learned, there is no need to
further optimize for harmful data. During inference, we can deactivate security
vectors to restore the LLM's normal behavior. The experimental results show
that the security vectors generated by 100 harmful samples are enough to
prevent LLM from learning 1000 harmful samples, while preserving the ability to
learn other useful information.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
異なるアプリケーションの要件を満たすため、LLMは細かな調整によってカスタマイズされることが多い。
しかし、LLMの強力な学習能力は、新たなタスクの獲得を可能にするだけでなく、望ましくない振る舞いの学習にも影響する。
例えば、安全性に配慮したLCMでさえ、暗黙的または明示的な有害な内容を含む場合が多いため、有害なアシスタントに簡単に微調整できる。
LLMを有害な振る舞いを学習せずに有害なデータで訓練できるのか?
本稿では, 微調整過程において有害な動作を学習不能にする制御可能なトレーニングフレームワークを提案する。
具体的には、LSMの応答が有害な振る舞いと一致していることを保証するために、LSMから分離できるいくつかの新しいパラメータである `security vectors' を導入する。
セキュリティベクターは微調整中に起動されるため、LCMはそのような挙動が既に学習されており、有害なデータに対してさらなる最適化を行う必要はないと信じている。
推論中、セキュリティベクトルを非活性化してLLMの正常な動作を復元する。
実験の結果,100個の有害サンプルが生成するセキュリティベクターはLLMが1000個の有害サンプルを学習するのを防ぐのに十分であることがわかった。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - AI Meets the Classroom: When Does ChatGPT Harm Learning? [0.0]
我々は,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。
LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。
論文 参考訳(メタデータ) (2024-08-29T17:07:46Z) - Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs [13.03032975937872]
大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。
レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆境的な)微調整が望ましくない能力を排除するのではなく、いかに抑制するかに起因していることを示唆している。
論文 参考訳(メタデータ) (2024-07-22T11:19:14Z) - Do LLM Agents Have Regret? A Case Study in Online Learning and Games [30.377709765198592]
大規模言語モデル(LLM)は(対話的な)意思決定にますます採用されている。
オンライン学習とゲーム理論のベンチマーク決定設定において,それらの相互作用について検討する。
本稿では,教師付きプレトレーニングの損失とは対照的に,教師付き行動のラベルを必要としない新しいインフントレーニングの損失を提案する。
論文 参考訳(メタデータ) (2024-03-25T15:04:11Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。