論文の概要: If You Don't Understand It, Don't Use It: Eliminating Trojans with Filters Between Layers
- arxiv url: http://arxiv.org/abs/2407.06411v1
- Date: Mon, 8 Jul 2024 21:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:54:43.125808
- Title: If You Don't Understand It, Don't Use It: Eliminating Trojans with Filters Between Layers
- Title(参考訳): 理解しない場合、使用しない:層間フィルタでトロイの木を除去する
- Authors: Adriano Hernandez,
- Abstract要約: 大型言語モデル(LLM)は時に危険な意図しない振る舞いを示す。
攻撃面が巨大であるため、これらの発見と修正は難しい。
この研究は、汎用的なレシピ(フィルタ)と特定の実装(LoRA)フィルタを提供することを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) sometimes exhibit dangerous unintended behaviors. Finding and fixing these is challenging because the attack surface is massive -- it is not tractable to exhaustively search for all possible inputs that may elicit such behavior. One specific and particularly challenging case is that if data-poisoning-injected trojans, since there is no way to know what they are to search for them. To our knowledge, there is no generally applicable method to unlearn unknown trojans injected during pre-training. This work seeks to provide a general purpose recipe (filters) and a specific implementation (LoRA) filters that work in practice on small to medium sized models. The focus is primarily empirical, though some perplexing behavior opens the door to the fundamental question of how LLMs store and process information. Not unexpectedly, we find that our filters work best on the residual stream and the latest layers.
- Abstract(参考訳): 大型言語モデル(LLM)は時に危険な意図しない振る舞いを示す。
攻撃面が巨大であるため、これらを見つけて修正することは難しい - このような振る舞いを誘発する可能性のあるすべての入力を、徹底的に検索することは不可能である。
データポゾンを注入したトロイの木馬を検索する方法が存在しないため、特に難しいケースが1つある。
我々の知る限り、事前学習中に注入された未知のトロヤ群を解き放つには、一般的には適用できない。
この研究は、小型・中規模のモデルで実際に動作する汎用的なレシピ(フィルタ)と特定の実装(LoRA)フィルタを提供することを目指している。
焦点は主に経験的だが、いくつかの難解な振る舞いは、LLMがどのように情報を保存して処理するかという根本的な疑問への扉を開く。
意外なことではないが、我々のフィルタは残留ストリームと最新のレイヤで最もうまく機能している。
関連論文リスト
- Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模に有害なプロンプトを自動生成する新しい手法を提案する。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - Backdoor Cleansing with Unlabeled Data [70.29989887008209]
外部訓練されたディープニューラルネットワーク(DNN)は、バックドア攻撃を受ける可能性がある。
トレーニングラベルを必要としない新しい防衛手法を提案する。
ラベルなしで訓練された本手法は,ラベルを用いて訓練した最先端の防御手法と同等である。
論文 参考訳(メタデータ) (2022-11-22T06:29:30Z) - Towards Effective and Robust Neural Trojan Defenses via Input Filtering [67.01177442955522]
ディープ・ニューラルネットワークに対するトロイの木馬の攻撃は危険で残酷だ。
過去数年間、Trojan攻撃は単純なトリガーのみを使用し、1つのクラスのみをターゲットとすることから、多くの高度なトリガーを使い、複数のクラスをターゲットにしている。
ほとんどの防衛手法は依然としてトロイの木馬の引き金や標的クラスについて正確な仮定をしているため、現代のトロイの木馬攻撃によって容易に回避できる。
論文 参考訳(メタデータ) (2022-02-24T15:41:37Z) - Trojan Signatures in DNN Weights [20.93172486021463]
トレーニング/テストデータへのアクセスを必要としない,最初の超軽量かつ高効率なトロイの木馬検出手法を提案する。
本手法は, ネットワークの最終線形層の重み解析に着目する。
トロイの木的対象クラスに関連する重みの分布は、他のクラスに関連する重みと明確に区別可能であることを示す。
論文 参考訳(メタデータ) (2021-09-07T03:07:03Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Feature-level Malware Obfuscation in Deep Learning [0.0]
我々は、良性およびマルウェアサンプルの特徴を用いて、マルウェア分類のためのディープニューラルネットワーク分類器を訓練する。
マルウェアに良質なアプリの機能をランダムに追加することで、偽陰性率(つまり、攻撃が成功する)の急激な増加を示す。
API呼び出しでは、IntentsやPermissionsの使用があまり成功しない攻撃の大部分を拒否することが可能である。
論文 参考訳(メタデータ) (2020-02-10T00:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。