Fugu-MT 論文翻訳(概要): Making Harmful Behaviors Unlearnable for Large Language Models

論文の概要: Making Harmful Behaviors Unlearnable for Large Language Models

arxiv url: http://arxiv.org/abs/2311.02105v1
Date: Thu, 2 Nov 2023 09:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 19:38:24.288113
Title: Making Harmful Behaviors Unlearnable for Large Language Models
Title（参考訳）: 大規模言語モデルにおける有害行動の理解不能化
Authors: Xin Zhou, Yi Lu, Ruotian Ma, Tao Gui, Qi Zhang, Xuanjing Huang
Abstract要約: 大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。 LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
参考スコア（独自算出の注目度）: 50.44915524846857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown great potential as general-purpose AI assistants in various domains. To meet the requirements of different applications, LLMs are often customized by further fine-tuning. However, the powerful learning ability of LLMs not only enables them to acquire new tasks but also makes them susceptible to learning undesired behaviors. For example, even safety-aligned LLMs can be easily fine-tuned into harmful assistants as the fine-tuning data often contains implicit or explicit harmful content. Can we train LLMs on harmful data without learning harmful behaviors? This paper proposes a controllable training framework that makes harmful behaviors unlearnable during the fine-tuning process. Specifically, we introduce ``security vectors'', a few new parameters that can be separated from the LLM, to ensure LLM's responses are consistent with the harmful behavior. Security vectors are activated during fine-tuning, the consistent behavior makes LLM believe that such behavior has already been learned, there is no need to further optimize for harmful data. During inference, we can deactivate security vectors to restore the LLM's normal behavior. The experimental results show that the security vectors generated by 100 harmful samples are enough to prevent LLM from learning 1000 harmful samples, while preserving the ability to learn other useful information.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。異なるアプリケーションの要件を満たすため、LLMは細かな調整によってカスタマイズされることが多い。しかし、LLMの強力な学習能力は、新たなタスクの獲得を可能にするだけでなく、望ましくない振る舞いの学習にも影響する。例えば、安全性に配慮したLCMでさえ、暗黙的または明示的な有害な内容を含む場合が多いため、有害なアシスタントに簡単に微調整できる。 LLMを有害な振る舞いを学習せずに有害なデータで訓練できるのか? 本稿では, 微調整過程において有害な動作を学習不能にする制御可能なトレーニングフレームワークを提案する。具体的には、LSMの応答が有害な振る舞いと一致していることを保証するために、LSMから分離できるいくつかの新しいパラメータである `security vectors' を導入する。セキュリティベクターは微調整中に起動されるため、LCMはそのような挙動が既に学習されており、有害なデータに対してさらなる最適化を行う必要はないと信じている。推論中、セキュリティベクトルを非活性化してLLMの正常な動作を復元する。実験の結果,100個の有害サンプルが生成するセキュリティベクターはLLMが1000個の有害サンプルを学習するのを防ぐのに十分であることがわかった。

関連論文リスト

Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Finetuning-Activated Backdoors in LLMs [2.9373912230684565]
オープンにアクセス可能なLarge Language Models (LLM) は、タスク固有のパフォーマンス改善を実現するための標準的なプラクティスとなっている。これまで、微調整は、良質なデータセットのトレーニングが予測可能な振る舞いをもたらす、制御されたセキュアなプロセスとみなされてきた。敵が最初に毒を盛ったLSMを作成できるのは初めてであり、最初は悪質に見えるが、下流のユーザーによって微調整された悪質な行動を示す。
論文参考訳（メタデータ） (2025-05-22T11:59:44Z)
Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions [17.485655062129965]
近年のAIエージェントは、大規模言語モデル(LLM)の出力を人間の意図で調整するために、命令チューニングと強化学習に依存している。 PT-ALIGN(PT-ALIGN)は,ヒトの健康管理を最小化するための安全自己調整手法である。 PT-ALIGNの安全性向上に有効であると同時に,有用性と有用性の両面を両立させながら,9つのオープンソース LLM 実験を行った。
論文参考訳（メタデータ） (2025-02-08T09:54:47Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
AI Meets the Classroom: When Does ChatGPT Harm Learning? [0.0]
我々は,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。 LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。
論文参考訳（メタデータ） (2024-08-29T17:07:46Z)
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs [13.03032975937872]
大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆境的な)微調整が望ましくない能力を排除するのではなく、いかに抑制するかに起因していることを示唆している。
論文参考訳（メタデータ） (2024-07-22T11:19:14Z)
Do LLM Agents Have Regret? A Case Study in Online Learning and Games [30.377709765198592]
大規模言語モデル(LLM)は(対話的な)意思決定にますます採用されている。オンライン学習とゲーム理論のベンチマーク決定設定において,それらの相互作用について検討する。本稿では,教師付きプレトレーニングの損失とは対照的に,教師付き行動のラベルを必要としない新しいインフントレーニングの損失を提案する。
論文参考訳（メタデータ） (2024-03-25T15:04:11Z)
Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文参考訳（メタデータ） (2024-02-03T16:43:42Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。