論文の概要: On Trojans in Refined Language Models
- arxiv url: http://arxiv.org/abs/2406.07778v1
- Date: Wed, 12 Jun 2024 00:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:46:21.697320
- Title: On Trojans in Refined Language Models
- Title(参考訳): 精製言語モデルにおけるトロイの木について
- Authors: Jayaram Raghuram, George Kesidis, David J. Miller,
- Abstract要約: 言語モデルにおけるトロイの木馬は、製品レビューの感情を決定するなど、特定のアプリケーションのためにモデルが洗練されるときに挿入することができる。
本稿では,データ・ポゾン・脅威モデルの多様性を解明し,実証的に検討する。
- 参考スコア(独自算出の注目度): 16.10608633005216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A Trojan in a language model can be inserted when the model is refined for a particular application such as determining the sentiment of product reviews. In this paper, we clarify and empirically explore variations of the data-poisoning threat model. We then empirically assess two simple defenses each for a different defense scenario. Finally, we provide a brief survey of related attacks and defenses.
- Abstract(参考訳): 言語モデルにおけるトロイの木馬は、製品レビューの感情を決定するなど、特定のアプリケーションのためにモデルが洗練されるときに挿入することができる。
本稿では,データ・ポゾン・脅威モデルの多様性を解明し,実証的に検討する。
次に、異なる防御シナリオに対して、2つの単純な防御を経験的に評価する。
最後に、関連する攻撃と防御について簡単な調査を行う。
関連論文リスト
- ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Backdoor Attack against Speaker Verification [86.43395230456339]
学習データを汚染することにより,話者検証モデルに隠れたバックドアを注入できることを示す。
また,既存のバックドア攻撃が話者認証攻撃に直接適用できないことも実証した。
論文 参考訳(メタデータ) (2020-10-22T11:10:08Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。