論文の概要: Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal
- arxiv url: http://arxiv.org/abs/2507.21750v1
- Date: Tue, 29 Jul 2025 12:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.254008
- Title: Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal
- Title(参考訳): 敵防御のない敵防衛:インスタンスレベルの主成分除去による言語モデルロバストネスの強化
- Authors: Yang Wang, Chenghao Xiao, Yizhi Li, Stuart E. Middleton, Noura Al Moubayed, Chenghua Lin,
- Abstract要約: プレトレーニング言語モデル(PLM)は、自然言語処理の大幅な進歩を導いてきたが、敵の攻撃に弱いままである。
PLMの対角的堅牢性を向上する,シンプルで効果的なアドオンモジュールを提案する。
- 参考スコア(独自算出の注目度): 20.597099709087665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have driven substantial progress in natural language processing but remain vulnerable to adversarial attacks, raising concerns about their robustness in real-world applications. Previous studies have sought to mitigate the impact of adversarial attacks by introducing adversarial perturbations into the training process, either implicitly or explicitly. While both strategies enhance robustness, they often incur high computational costs. In this work, we propose a simple yet effective add-on module that enhances the adversarial robustness of PLMs by removing instance-level principal components, without relying on conventional adversarial defences or perturbing the original training data. Our approach transforms the embedding space to approximate Gaussian properties, thereby reducing its susceptibility to adversarial perturbations while preserving semantic relationships. This transformation aligns embedding distributions in a way that minimises the impact of adversarial noise on decision boundaries, enhancing robustness without requiring adversarial examples or costly training-time augmentation. Evaluations on eight benchmark datasets show that our approach improves adversarial robustness while maintaining comparable before-attack accuracy to baselines, achieving a balanced trade-off between robustness and generalisation.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、自然言語処理の大幅な進歩を導いてきたが、敵の攻撃に弱いままであり、現実世界のアプリケーションにおけるその堅牢性に対する懸念を高めている。
従来の研究では、暗黙的または明示的に、相手の摂動をトレーニングプロセスに導入することで、敵の攻撃の影響を緩和しようと試みてきた。
どちらの戦略も堅牢性を高めるが、しばしば高い計算コストを発生させる。
本研究では,従来の対角防御やトレーニングデータの摂動に頼ることなく,インスタンスレベルの主成分を除去することで,PLMの対角的堅牢性を向上する,シンプルで効果的なアドオンモジュールを提案する。
提案手法は, 埋め込み空間をガウス特性に近似して変換することにより, 意味的関係を保ちながら, 対角摂動に対する感受性を低下させる。
この変換は、敵のノイズが決定境界に与える影響を最小限に抑え、敵の例やコストのかかる訓練時間増強を必要とせずに堅牢性を高める方法で埋め込み分布を調整します。
8つのベンチマークデータセットで評価したところ、我々の手法は、ベースラインに匹敵する事前攻撃精度を維持しつつ、頑健性と一般化のバランスの取れたトレードオフを達成しつつ、敵の頑健性を改善する。
関連論文リスト
- Dynamic Epsilon Scheduling: A Multi-Factor Adaptive Perturbation Budget for Adversarial Training [1.5558386948322986]
敵のトレーニングは、敵の例からニューラルネットワークを守るための最も効果的な戦略の1つである。
既存の敵の訓練アプローチは固定的な摂動予算に依存しており、堅牢性に特有な特性を考慮できない。
本研究では,動的Epsilon Scheduling(DES)を提案する。このフレームワークは,インスタンスごとの対向摂動予算を適応的に調整し,トレーニングインスタンス毎に調整する。
論文 参考訳(メタデータ) (2025-06-03T04:18:53Z) - Adversarial Training in Low-Label Regimes with Margin-Based Interpolation [8.585017175426023]
敵の攻撃に抵抗する堅牢なニューラルネットワークモデルをトレーニングするための効果的なアプローチとして、敵のトレーニングが登場した。
本稿では,頑健性と自然な精度を両立させる,新たな半教師付き対人訓練手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T00:35:13Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Improving Adversarial Robustness with Self-Paced Hard-Class Pair
Reweighting [5.084323778393556]
標的外攻撃による敵の訓練は 最も認知されている方法の1つです
自然に不均衡なクラス間のセマンティックな類似性により、これらのハードクラスのペアが互いに仮想的なターゲットになる。
モデル最適化における重み付きハードクラスペアの損失について提案し、ハードクラスからの識別的特徴の学習を促す。
論文 参考訳(メタデータ) (2022-10-26T22:51:36Z) - Improving adversarial robustness of deep neural networks by using
semantic information [17.887586209038968]
対人訓練は、敵の堅牢性を改善するための主要な方法であり、対人攻撃に対する第一線である。
本稿では,ネットワーク全体から,あるクラスに対応する決定境界に近い領域の重要部分に焦点を移す,対向ロバスト性の問題に対する新たな視点を提供する。
MNISTとCIFAR-10データセットの実験的結果は、この手法がトレーニングデータから非常に小さなデータセットを使用しても、敵の堅牢性を大幅に向上することを示している。
論文 参考訳(メタデータ) (2020-08-18T10:23:57Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。