論文の概要: Universal Adversarial Triggers
- arxiv url: http://arxiv.org/abs/2605.17936v1
- Date: Mon, 18 May 2026 06:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.930985
- Title: Universal Adversarial Triggers
- Title(参考訳): Universal Adversarial Triggers
- Authors: Benedict Florance Arockiaraj, Alexander Feng, Jianxiong Cai, Xiaoyu Cheng,
- Abstract要約: そこで本研究では,音声のパート・オブ・スペルフィルタリングとパープレキシティに基づく損失関数を組み合わせた新しい手法を提案する。
SSTデータセットの感情分析のタスクでは、0.04と0.12という低い精度で精度の高いトリガを生成する。
頑健なモデルを構築するためには,生成したトリガを用いて,モデルの精度を0.12から0.48に向上させる逆トレーニングも行う。
- 参考スコア(独自算出の注目度): 41.53890827645085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have illustrated that modern NLP models trained for diverse tasks ranging from sentiment analysis to language generation succumb to universal adversarial attacks, a class of input-agnostic attacks where a common trigger sequence is used to attack the model. Although these attacks are successful, the triggers generated by such attacks are ungrammatical and unnatural. Our work proposes a novel technique combining parts-of-speech filtering and perplexity based loss function to generate sensible triggers that are closer to natural phrases. For the task of sentiment analysis on the SST dataset, the method produces sensible triggers that achieve accuracies as low as 0.04 and 0.12 for flipping positive to negative predictions and vice-versa. To build robust models, we also perform adversarial training using the generated triggers that increases the accuracy of the model from 0.12 to 0.48. We aim to illustrate that adversarial attacks can be made difficult to detect by generating sensible triggers, and to facilitate robust model development through relevant defenses.
- Abstract(参考訳): 近年の研究では、感情分析から言語生成まで多様なタスクのために訓練された現代のNLPモデルは、共通のトリガーシーケンスがモデルを攻撃するために使用される入力非依存攻撃のクラスである、普遍的敵攻撃まで様々であることが示された。
これらの攻撃は成功したが、そのような攻撃によって引き起こされるトリガーは文法的でなく不自然なものである。
そこで本研究では,音声のパート・オブ・スペーシングとパープレキシティに基づく損失関数を組み合わせて,自然なフレーズに近い意味のあるトリガを生成する手法を提案する。
SSTデータセット上での感情分析のタスクでは、負の予測と逆の予測を反転させるための0.04と0.12という精度のよいトリガを生成する。
頑健なモデルを構築するためには,生成したトリガを用いて,モデルの精度を0.12から0.48に向上させる逆トレーニングも行う。
本研究の目的は、適切なトリガーを発生させることによって敵攻撃を検知しにくくすることであり、関連する防御を通じて堅牢なモデル開発を容易にすることである。
関連論文リスト
- Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - FTA: Stealthy and Adaptive Backdoor Attack with Flexible Triggers on
Federated Learning [11.636353298724574]
我々は,新たなステルスで堅牢なバックドア攻撃を,連邦学習(FL)防衛に対して提案する。
我々は、許容できない柔軟なトリガーパターンで良質なサンプルを操作することを学べる生成的トリガー関数を構築した。
我々のトリガージェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。
論文 参考訳(メタデータ) (2023-08-31T20:25:54Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Generating Label Cohesive and Well-Formed Adversarial Claims [44.29895319592488]
敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。
本研究は,真理を保存した事実チェックシステムに対して,敵対的な攻撃を発生させる方法について検討する。
生成した攻撃は, クレームの方向性と意味的妥当性を, 従来よりも良好に維持していることがわかった。
論文 参考訳(メタデータ) (2020-09-17T10:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。