論文の概要: Learning and Forgetting Unsafe Examples in Large Language Models
- arxiv url: http://arxiv.org/abs/2312.12736v1
- Date: Wed, 20 Dec 2023 03:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:05:18.479896
- Title: Learning and Forgetting Unsafe Examples in Large Language Models
- Title(参考訳): 大規模言語モデルにおける安全でない例の学習と忘れ方
- Authors: Jiachen Zhao, Zhun Deng, David Madras, James Zou, Mengye Ren
- Abstract要約: 大規模言語モデル(LLM)は、サードパーティのカスタム微調整データから学習する。
協調LLMは、安全でないコンテンツを容易に学習できるが、より安全なコンテンツに微調整した場合には、それを忘れやすい傾向にある。
このアルゴリズムは、モデルがそのデータに対して忘れている信号がどれほど強いかに基づいて、安全でないデータをフィルタリングする。
- 参考スコア(独自算出の注目度): 44.11016537352559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the number of large language models (LLMs) released to the public grows,
there is a pressing need to understand the safety implications associated with
these models learning from third-party custom finetuning data. We explore the
behavior of LLMs finetuned on noisy custom data containing unsafe content,
represented by datasets that contain biases, toxicity, and harmfulness, finding
that while aligned LLMs can readily learn this unsafe content, they also tend
to forget it more significantly than other examples when subsequently finetuned
on safer content. Drawing inspiration from the discrepancies in forgetting, we
introduce the "ForgetFilter" algorithm, which filters unsafe data based on how
strong the model's forgetting signal is for that data. We demonstrate that the
ForgetFilter algorithm ensures safety in customized finetuning without
compromising downstream task performance, unlike sequential safety finetuning.
ForgetFilter outperforms alternative strategies like replay and moral
self-correction in curbing LLMs' ability to assimilate unsafe content during
custom finetuning, e.g. 75% lower than not applying any safety measures and 62%
lower than using self-correction in toxicity score.
- Abstract(参考訳): 一般公開される大規模言語モデル(llm)の数が増えるにつれ、サードパーティのカスタム微調整データから学習するこれらのモデルに関連する安全性の意味を理解する必要がある。
バイアス、毒性、有害性を含むデータセットで表される、安全でないコンテンツを含むノイズの多いカスタムデータに基づいて微調整されたllmの挙動を調査し、アライメントされたllmは、この安全でないコンテンツを簡単に学習できるが、その後安全なコンテンツで微調整された場合、他の例よりもかなり忘れがちであることを示す。
このアルゴリズムは、モデルの忘れた信号がそのデータに対してどれだけ強いかに基づいて、安全でないデータをフィルタリングする。
このアルゴリズムは,逐次的安全性の微調整とは異なり,下流のタスク性能を損なうことなく,カスタマイズされた微調整の安全性を保証する。
ForgetFilterは、カスタム微調整中にLLMが安全でないコンテンツを同化する能力を抑えるために、リプレイや道徳的自己補正のような代替戦略、例えば、安全対策を適用しない場合よりも75%低く、毒性スコアで自己補正を使用する場合よりも62%低い。
関連論文リスト
- AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Developing Safe and Responsible Large Language Models -- A Comprehensive Framework [1.980639720136382]
SR$_textLLM$は、潜在的に安全でないコンテンツを識別し、良質なバリエーションを生成するように設計されている。
命令ベースおよびパラメータ効率の良い微調整方式を採用している。
安全対策が実施されると、安全なコンテンツの生産が大幅に改善された。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large
Language Models [42.44428860052108]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。