Fugu-MT 論文翻訳(概要): Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

論文の概要: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

arxiv url: http://arxiv.org/abs/2401.05566v3
Date: Wed, 17 Jan 2024 20:26:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 19:07:51.983986
Title: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Title（参考訳）: スリーパーエージェント:安全トレーニングを通じて持続する偽装llmの訓練
Authors: Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, S\"oren Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez
Abstract要約: 本研究では,大規模言語モデルにおける認識行動の実証-概念例について検討する。このようなバックドアの動作を持続的に行うことができ、標準安全訓練技術によって取り除かれないようにしている。この結果から,モデルが偽装行動を示すと,そのような偽装行為の除去に失敗する可能性が示唆された。
参考スコア（独自算出の注目度）: 41.81176284155003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoor behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoor behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.
Abstract（参考訳）: 人間は多くの状況で有益な行動をとるが、機会を与えられたときに別の目的を追求するために非常に異なる行動をとる。もしAIシステムがそのような偽りの戦略を学んだら、検出して現在の最先端の安全訓練技術を使って除去できるだろうか? そこで本研究では,大規模言語モデル(llm)における概念実証事例について考察する。例えば、2023年とプロンプトされた時にセキュアなコードを書くモデルをトレーニングしますが、2024年の場合は、悪用可能なコードを挿入します。このようなバックドア動作は、教師付き微調整、強化学習、敵の訓練(安全でない振る舞いを排除し、それを除去する訓練)など、標準的な安全訓練技術によって取り除かれることはない。バックドアの挙動は、最大のモデルや訓練されたモデルにおいて最も永続的であり、チェーン・オブ・シントを蒸留しても持続性は残る。さらに,バックドアをなくすのではなく,モデルにバックドアトリガをよりよく認識するように指導することで,安全でない動作を効果的に隠蔽できることがわかった。以上の結果から, モデルが仮装行動を示すと, 標準技術ではそのような偽装を除去できず, 安全性の虚偽の印象を生じさせる可能性が示唆された。

関連論文リスト

Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文参考訳（メタデータ） (2025-10-16T16:18:07Z)
Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。 PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文参考訳（メタデータ） (2024-05-25T07:52:26Z)
Towards Imperceptible Backdoor Attack in Self-supervised Learning [34.107940147916835]
自己教師型学習モデルは、バックドア攻撃に対して脆弱である。自己教師付き学習に有効な既存のバックドア攻撃は、しばしば顕著なトリガーを伴う。本稿では,自己教師型モデルに対する非受容的で効果的なバックドア攻撃を提案する。
論文参考訳（メタデータ） (2024-05-23T15:08:31Z)
Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transformers [51.0477382050976]
この作業でスイッチトークンと呼ばれる追加のプロンプトトークンは、バックドアモードをオンにすることができ、良心的なモデルをバックドアモードに変換することができる。事前訓練されたモデルを攻撃するため、SWARMと呼ばれる攻撃はトリガを学習し、スイッチトークンを含むトークンをプロンプトする。多様な視覚認識タスクの実験は、切り替え可能なバックドア攻撃の成功を確認し、95%以上の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-05-17T08:19:48Z)
Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文参考訳（メタデータ） (2023-07-19T17:44:54Z)
Backdoor Cleansing with Unlabeled Data [70.29989887008209]
外部訓練されたディープニューラルネットワーク(DNN)は、バックドア攻撃を受ける可能性がある。トレーニングラベルを必要としない新しい防衛手法を提案する。ラベルなしで訓練された本手法は,ラベルを用いて訓練した最先端の防御手法と同等である。
論文参考訳（メタデータ） (2022-11-22T06:29:30Z)
Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムはバックドア攻撃の訓練中に固有の脆弱性がある我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文参考訳（メタデータ） (2022-06-12T16:52:52Z)
Anti-Backdoor Learning: Training Clean Models on Poisoned Data [17.648453598314795]
ディープニューラルネットワーク(DNN)に対するセキュリティ上の脅威としてバックドア攻撃が出現提案手法は,バックドア・ポゾンデータを用いたアンファンクレーンモデルの学習を目的とした,アンファンティ・バックドア学習の概念を導入する。バックドアポゾンデータ上でのABL学習モデルは、純粋にクリーンなデータでトレーニングされたのと同じ性能を実証的に示す。
論文参考訳（メタデータ） (2021-10-22T03:30:48Z)
WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文参考訳（メタデータ） (2021-02-20T15:25:36Z)
Blind Backdoors in Deep Learning Models [22.844973592524966]
本稿では,機械学習モデルにバックドアを注入する新しい手法について検討する。従来の文献よりも厳格に強力なバックドアの新たなクラスを実証するために使用しています。攻撃者はトレーニングデータを変更したり、コードの実行を観察したり、結果のモデルにアクセスしたりすることができません。
論文参考訳（メタデータ） (2020-05-08T02:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。