論文の概要: Alert-ME: An Explainability-Driven Defense Against Adversarial Examples in Transformer-Based Text Classification
- arxiv url: http://arxiv.org/abs/2307.01225v3
- Date: Fri, 24 Oct 2025 02:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.689053
- Title: Alert-ME: An Explainability-Driven Defense Against Adversarial Examples in Transformer-Based Text Classification
- Title(参考訳): Alert-ME: トランスフォーマーによるテキスト分類における逆例に対する説明可能性駆動型防御
- Authors: Bushra Sabir, Yansong Gao, Alsharif Abuadbba, M. Ali Babar,
- Abstract要約: 本稿では、予測時間防御を強化するために、説明可能性駆動型検出・識別・変換(EDIT)と呼ばれる統一的なフレームワークを提案する。
EDITは、アテンションマップや統合勾配などの説明可能性ツールと周波数ベースの機能を統合し、敵の摂動を自動的に検出し識別する。
このフレームワークは、テキスト分類モデルにおける標準、ゼロデイおよび適応的な敵の脅威に対して、堅牢で、解釈可能で、効率的な保護を提供する。
- 参考スコア(独自算出の注目度): 9.818997495801705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based text classifiers such as BERT, RoBERTa, T5, and GPT have shown strong performance in natural language processing tasks but remain vulnerable to adversarial examples. These vulnerabilities raise significant security concerns, as small input perturbations can cause severe misclassifications. Existing robustness methods often require heavy computation or lack interpretability. This paper presents a unified framework called Explainability-driven Detection, Identification, and Transformation (EDIT) to strengthen inference-time defenses. EDIT integrates explainability tools, including attention maps and integrated gradients, with frequency-based features to automatically detect and identify adversarial perturbations while offering insight into model behavior. After detection, EDIT refines adversarial inputs using an optimal transformation process that leverages pre-trained embeddings and model feedback to replace corrupted tokens. To enhance security assurance, EDIT incorporates automated alerting mechanisms that involve human analysts when necessary. Beyond static defenses, EDIT also provides adaptive resilience by enforcing internal feature similarity and transforming inputs, thereby disrupting the attackers optimization process and limiting the effectiveness of adaptive adversarial attacks. Experiments using BERT and RoBERTa on IMDB, YELP, AGNEWS, and SST2 datasets against seven word substitution attacks demonstrate that EDIT achieves an average Fscore of 89.69 percent and balanced accuracy of 89.70 percent. Compared to four state-of-the-art defenses, EDIT improves balanced accuracy by 1.22 times and F1-score by 1.33 times while being 83 times faster in feature extraction. The framework provides robust, interpretable, and efficient protection against both standard, zero-day, and adaptive adversarial threats in text classification models.
- Abstract(参考訳): BERT、RoBERTa、T5、GPTなどのトランスフォーマーベースのテキスト分類器は、自然言語処理タスクにおいて高い性能を示したが、敵の例には弱いままである。
これらの脆弱性は、小さな入力摂動が深刻な誤分類を引き起こす可能性があるため、重大なセキュリティ上の懸念を引き起こす。
既存のロバスト性手法は、しばしば重い計算を必要とするか、解釈可能性の欠如を必要とする。
本稿では、予測時間防御を強化するために、説明可能性駆動型検出・識別・変換(EDIT)と呼ばれる統一的なフレームワークを提案する。
EDITは、アテンションマップや統合グラデーションを含む説明可能性ツールと周波数ベースの機能を統合し、モデル行動に関する洞察を提供しながら、敵の摂動を自動的に検出し識別する。
検出後、EDITは、トレーニング済みの埋め込みとモデルフィードバックを活用して、破損したトークンを置き換える最適な変換プロセスを使用して、敵の入力を洗練する。
セキュリティの保証を強化するため、EDITは人間アナリストが必要に応じて関与する自動警告機構を組み込んだ。
静的防御以外にも、EDITは内部フィーチャの類似性を強制し、入力を変換することで適応的レジリエンスを提供し、攻撃者の最適化プロセスを妨害し、適応的敵攻撃の有効性を制限する。
7つの単語置換攻撃に対するIMDB、YELP、AGNEWS、SST2データセットに対するBERTとRoBERTaを用いた実験は、EDITが平均Fスコア89.69パーセント、バランスの取れた精度89.70%を達成したことを示している。
最先端の4つの防御システムと比較して、EDITは精度を1.22倍、F1スコアを1.33倍改善し、特徴抽出の83倍高速化した。
このフレームワークは、テキスト分類モデルにおける標準、ゼロデイおよび適応的な敵の脅威に対して、堅牢で、解釈可能で、効率的な保護を提供する。
関連論文リスト
- On the Mechanisms of Adversarial Data Augmentation for Robust and Adaptive Transfer Learning [0.0]
移動学習環境における強靭性と適応性を両立させる上で, ADA(Adversarial Data Augmentation)の役割について検討した。
本稿では、ADAと整合性正規化とドメイン不変表現学習を統合した統合フレームワークを提案する。
本研究は,破壊攻撃からの摂動を,ドメイン間移動性のための正規化力に変換する,対向学習という構成的視点を強調した。
論文 参考訳(メタデータ) (2025-05-19T03:56:51Z) - Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Lost In Translation: Generating Adversarial Examples Robust to
Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。
筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。
本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:43Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - Beyond Model Interpretability: On the Faithfulness and Adversarial
Robustness of Contrastive Textual Explanations [2.543865489517869]
本研究は、説明の忠実さに触発された新たな評価手法の基盤を築き、テキストの反事実を動機づけるものである。
感情分析データを用いた実験では, 両モデルとも, 対物関係の関連性は明らかでないことがわかった。
論文 参考訳(メタデータ) (2022-10-17T09:50:02Z) - Semantically Distributed Robust Optimization for Vision-and-Language
Inference [34.83271008148651]
分散ロバスト最適化設定における言語変換をモデルに依存しない手法である textbfSDRO を提案する。
画像とビデオによるベンチマークデータセットの実験では、パフォーマンスの改善に加えて、敵攻撃に対する堅牢性も示されている。
論文 参考訳(メタデータ) (2021-10-14T06:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。