論文の概要: CERT-ED: Certifiably Robust Text Classification for Edit Distance
- arxiv url: http://arxiv.org/abs/2408.00728v1
- Date: Thu, 1 Aug 2024 17:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:47:32.111888
- Title: CERT-ED: Certifiably Robust Text Classification for Edit Distance
- Title(参考訳): CERT-ED:編集距離にロバストなテキスト分類
- Authors: Zhuoqun Huang, Neil G Marchant, Olga Ohrimenko, Benjamin I. P. Rubinstein,
- Abstract要約: 我々は、ランダム化された削除(Huang et al., 2023)を適用し、自然言語分類のためのCERT-ED(CERTified Edit Distance Defense)を提案する。
5つのダイレクトおよび5つの転送攻撃を含む様々な脅威モデルをカバーすることにより、50設定中38の試験的堅牢性を向上する。
- 参考スコア(独自算出の注目度): 19.709389173144032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing integration of AI in daily life, ensuring the robustness of systems to inference-time attacks is crucial. Among the approaches for certifying robustness to such adversarial examples, randomized smoothing has emerged as highly promising due to its nature as a wrapper around arbitrary black-box models. Previous work on randomized smoothing in natural language processing has primarily focused on specific subsets of edit distance operations, such as synonym substitution or word insertion, without exploring the certification of all edit operations. In this paper, we adapt Randomized Deletion (Huang et al., 2023) and propose, CERTified Edit Distance defense (CERT-ED) for natural language classification. Through comprehensive experiments, we demonstrate that CERT-ED outperforms the existing Hamming distance method RanMASK (Zeng et al., 2023) in 4 out of 5 datasets in terms of both accuracy and the cardinality of the certificate. By covering various threat models, including 5 direct and 5 transfer attacks, our method improves empirical robustness in 38 out of 50 settings.
- Abstract(参考訳): 日々の生活におけるAIの統合の増大により、推論時攻撃に対するシステムの堅牢性を保証することが不可欠である。
このような逆例に対するロバスト性を証明するアプローチの中で、ランダム化された平滑化は、任意のブラックボックスモデルを取り巻くラッパーとしての性質から、非常に有望なものとして現れている。
自然言語処理におけるランダム化平滑化に関するこれまでの研究は、主に編集距離操作の特定のサブセット(同義語置換や単語挿入など)に焦点を当てており、すべての編集操作の認証を探索することはなかった。
本稿では、ランダム化削除(Huang et al , 2023)を適応させ、自然言語分類のためのCERT-ED(CERTified Edit Distance Defense)を提案する。
CERT-EDは5つのデータセットのうち4つで既存のハミング距離法RanMASK(Zeng et al , 2023)を精度と認証の基数の両方で上回っていることを示す。
5つのダイレクトおよび5つの転送攻撃を含む様々な脅威モデルをカバーすることにより、50設定中38の試験的堅牢性を向上する。
関連論文リスト
- BiCert: A Bilinear Mixed Integer Programming Formulation for Precise Certified Bounds Against Data Poisoning Attacks [62.897993591443594]
データ中毒攻撃は、現代のAIシステムにとって最大の脅威の1つだ。
データ中毒攻撃は、現代のAIシステムにとって最大の脅威の1つだ。
データ中毒攻撃は、現代のAIシステムにとって最大の脅威の1つだ。
論文 参考訳(メタデータ) (2024-12-13T14:56:39Z) - OpenFact at CheckThat! 2024: Combining Multiple Attack Methods for Effective Adversarial Text Generation [36.136619420474766]
CLEF 2024 Task 6: Robustness of Credibility Assessment with Adversarial Examples (InCrediblAE)
本研究の主な目的は,信頼度評価問題に適用した場合に広く用いられているテキスト分類手法の堅牢性を評価するために,5つの問題領域における逆例を生成することである。
論文 参考訳(メタデータ) (2024-09-04T12:26:26Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers
via Randomized Deletion [23.309600117618025]
離散列分類器のランダム化スムーシングを適用して、編集距離境界の敵に対して確固たるロバスト性を提供する。
私たちの証明は、確立されたNeyman-Pearsonアプローチから逸脱したものです。
一般的なMalConvマルウェア検出モデルに適用すると、スムーシング機構RS-Delは128バイトの編集距離半径で91%の精度を達成できる。
論文 参考訳(メタデータ) (2023-01-31T01:40:26Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - SAFER: A Structure-free Approach for Certified Robustness to Adversarial
Word Substitutions [36.91111335989236]
最先端のNLPモデルは、同義語置換のような人間の変換によってしばしば騙される。
入力文にランダムな単語置換を適用してアンサンブルを構成する,新しいランダム化平滑化手法を提案する。
本手法は,IMDBとAmazonのテキスト分類タスクにおいて,信頼性の高いロバスト性を示す最新手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-29T07:15:19Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。