論文の概要: Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs
- arxiv url: http://arxiv.org/abs/2407.04108v2
- Date: Wed, 17 Jul 2024 18:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:12:48.457903
- Title: Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs
- Title(参考訳): バックドアトリガーとしての今後の出来事 : LLMにおける時間的脆弱性の調査
- Authors: Sara Price, Arjun Panickssery, Sam Bowman, Asa Cooper Stickland,
- Abstract要約: バックドアを成功させようとする悪いアクターは、トレーニングや評価の際のアクティベーションを避けるために、それらを設計する必要があります。
現在の大規模言語モデル(LLM)は、過去の出来事と将来の出来事を区別することができ、モデルのアクティベーションに関する調査で90%の精度を実現している。
私たちは、時間的分布シフトによって引き起こされるバックドアでモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 1.8907257686468144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoors are hidden behaviors that are only triggered once an AI system has been deployed. Bad actors looking to create successful backdoors must design them to avoid activation during training and evaluation. Since data used in these stages often only contains information about events that have already occurred, a component of a simple backdoor trigger could be a model recognizing data that is in the future relative to when it was trained. Through prompting experiments and by probing internal activations, we show that current large language models (LLMs) can distinguish past from future events, with probes on model activations achieving 90% accuracy. We train models with backdoors triggered by a temporal distributional shift; they activate when the model is exposed to news headlines beyond their training cut-off dates. Fine-tuning on helpful, harmless and honest (HHH) data does not work well for removing simpler backdoor triggers but is effective on our backdoored models, although this distinction is smaller for the larger-scale model we tested. We also find that an activation-steering vector representing a model's internal representation of the date influences the rate of backdoor activation. We take these results as initial evidence that, at least for models at the modest scale we test, standard safety measures are enough to remove these backdoors.
- Abstract(参考訳): バックドアは隠れた振る舞いであり、AIシステムがデプロイされるとのみトリガーされる。
バックドアを成功させようとする悪いアクターは、トレーニングや評価の際のアクティベーションを避けるために、それらを設計する必要があります。
これらの段階で使用されるデータは、既に発生したイベントに関する情報のみを含むことが多いため、単純なバックドアトリガーのコンポーネントは、トレーニングされた時間に関する将来的なデータを認識するモデルになる可能性がある。
実験の促進と内部アクティベーションの探索により、現在の大規模言語モデル(LLM)は過去の出来事と将来の出来事を区別でき、モデルのアクティベーションに関する調査では90%の精度が得られた。
私たちは、時間的分布シフトによって引き起こされるバックドアでモデルをトレーニングします。
有用で無害で正直な(HHH)データの微調整は、シンプルなバックドアトリガを除去するにはうまくいきませんが、我々のバックドアモデルでは有効です。
また,モデルの内部表現を表すアクティベーションステアリングベクトルが,バックドアアクティベーションの速度に影響を与えることも確認した。
これらの結果は、少なくとも我々がテストする控えめなスケールのモデルでは、標準安全対策はこれらのバックドアを取り除くのに十分である、という最初の証拠として捉えています。
関連論文リスト
- DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Can Backdoor Attacks Survive Time-Varying Models? [35.836598031681426]
バックドアはディープニューラルネットワーク(DNN)に対する強力な攻撃
バックドア攻撃が時間変化DNNモデルのより現実的なシナリオに与える影響について検討する。
以上の結果から, ワンショットバックドア攻撃は, 数回のモデル更新以降は生き残らないことが明らかとなった。
論文 参考訳(メタデータ) (2022-06-08T01:32:49Z) - Anti-Backdoor Learning: Training Clean Models on Poisoned Data [17.648453598314795]
ディープニューラルネットワーク(DNN)に対するセキュリティ上の脅威としてバックドア攻撃が出現
提案手法は,バックドア・ポゾンデータを用いたアンファンクレーンモデルの学習を目的とした,アンファンティ・バックドア学習の概念を導入する。
バックドアポゾンデータ上でのABL学習モデルは、純粋にクリーンなデータでトレーニングされたのと同じ性能を実証的に示す。
論文 参考訳(メタデータ) (2021-10-22T03:30:48Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。