論文の概要: Unitary Multi-Margin BERT for Robust Natural Language Processing
- arxiv url: http://arxiv.org/abs/2410.12759v1
- Date: Wed, 16 Oct 2024 17:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:17.019313
- Title: Unitary Multi-Margin BERT for Robust Natural Language Processing
- Title(参考訳): ロバスト自然言語処理のためのユニタリマルチマージンBERT
- Authors: Hao-Yuan Chang, Kang L. Wang,
- Abstract要約: 近年のディープラーニングに対する敵対的攻撃は、多くのミッションクリティカル自然言語処理(NLP)システムを搾取の危険にさらしている。
本稿では,計算効率のよい対角防御手法の欠如に対処するため,一元重みとマルチマージン損失を組み合わせることにより,変換器(BERT)からの双方向表現の堅牢性を大幅に向上させる,新しい普遍的手法を報告する。
統一マルチマージンBERT (UniBERT) は,攻撃後分類の精度を5.3%から73.8%向上させ,競争前の精度を維持した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent developments in adversarial attacks on deep learning leave many mission-critical natural language processing (NLP) systems at risk of exploitation. To address the lack of computationally efficient adversarial defense methods, this paper reports a novel, universal technique that drastically improves the robustness of Bidirectional Encoder Representations from Transformers (BERT) by combining the unitary weights with the multi-margin loss. We discover that the marriage of these two simple ideas amplifies the protection against malicious interference. Our model, the unitary multi-margin BERT (UniBERT), boosts post-attack classification accuracies significantly by 5.3% to 73.8% while maintaining competitive pre-attack accuracies. Furthermore, the pre-attack and post-attack accuracy tradeoff can be adjusted via a single scalar parameter to best fit the design requirements for the target applications.
- Abstract(参考訳): 近年のディープラーニングに対する敵対的攻撃は、多くのミッションクリティカル自然言語処理(NLP)システムを搾取の危険にさらしている。
計算効率のよい対角防御手法の欠如に対処するため,両方向エンコーダ表現(BERT)のロバスト性を大幅に向上する,ユニタリ重みとマルチマージン損失を併用した新しいユニバーサル手法を報告した。
これら2つの単純なアイデアの結婚は、悪意のある干渉に対する保護を増幅することを発見した。
統一マルチマージンBERT (UniBERT) は,攻撃後分類の精度を5.3%から73.8%向上させ,競争前の精度を維持した。
さらに、ターゲットアプリケーションの設計要件に最も適合するように、1つのスカラーパラメータを介して、前攻撃および後攻撃精度トレードオフを調整することができる。
関連論文リスト
- Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Parameter-Saving Adversarial Training: Reinforcing Multi-Perturbation
Robustness via Hypernetworks [47.21491911505409]
敵の訓練は、敵の摂動から守る最もポピュラーで効果的な方法の1つである。
本稿では,多摂動頑健性を高めるために,新しい多摂動対向トレーニングフレームワークであるパラメータセービング対向トレーニング(PSAT)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:16:02Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - A Data Augmentation-based Defense Method Against Adversarial Attacks in
Neural Networks [7.943024117353317]
そこで本研究では,実生活制約に適合した完全ホワイトボックス攻撃を効果的に無効化する軽量防衛手法を開発した。
我々のモデルは、50発のBPDAによる高度な適応攻撃に耐えることができ、攻撃成功率をほぼゼロに抑えながら、目標モデルが約80%の精度を維持するのに役立ちます。
論文 参考訳(メタデータ) (2020-07-30T08:06:53Z) - Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。
このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。
モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文 参考訳(メタデータ) (2020-05-04T01:28:18Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。