論文の概要: SEPP: Similarity Estimation of Predicted Probabilities for Defending and
Detecting Adversarial Text
- arxiv url: http://arxiv.org/abs/2110.05748v1
- Date: Tue, 12 Oct 2021 05:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 00:16:00.599812
- Title: SEPP: Similarity Estimation of Predicted Probabilities for Defending and
Detecting Adversarial Text
- Title(参考訳): SEPP: 逆文の保存・検出のための予測確率の類似性推定
- Authors: Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku
Kiyomoto
- Abstract要約: 本研究では,予測確率(SEPP)の類似度推定に基づくアンサンブルモデルを提案する。
各種の被害者分類器による敵対的テキストの保護と検出におけるSEPPのレジリエンスを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are two cases describing how a classifier processes input text, namely,
misclassification and correct classification. In terms of misclassified texts,
a classifier handles the texts with both incorrect predictions and adversarial
texts, which are generated to fool the classifier, which is called a victim.
Both types are misunderstood by the victim, but they can still be recognized by
other classifiers. This induces large gaps in predicted probabilities between
the victim and the other classifiers. In contrast, text correctly classified by
the victim is often successfully predicted by the others and induces small
gaps. In this paper, we propose an ensemble model based on similarity
estimation of predicted probabilities (SEPP) to exploit the large gaps in the
misclassified predictions in contrast to small gaps in the correct
classification. SEPP then corrects the incorrect predictions of the
misclassified texts. We demonstrate the resilience of SEPP in defending and
detecting adversarial texts through different types of victim classifiers,
classification tasks, and adversarial attacks.
- Abstract(参考訳): 分類器が入力テキストをどのように処理するか、すなわち誤分類と正しい分類の2つのケースがある。
誤分類されたテキストの観点では、分類器は不正な予測と敵対的なテキストの両方でテキストを扱い、分類器を騙すために生成される。
どちらのタイプも被害者によって誤解されているが、他の分類器でも認識できる。
これにより、被害者と他の分類器の間の予測確率に大きなギャップが生じる。
対照的に、被害者によって正しく分類されたテキストは、しばしば他人によって予測され、小さなギャップを生じさせる。
本稿では,予測確率の類似度推定(sepp)に基づくアンサンブルモデルを提案する。
SEPPは、誤分類されたテキストの誤った予測を修正する。
各種の被害者分類器、分類タスク、敵攻撃による敵対的テキストの保護・検出におけるSEPPのレジリエンスを実証する。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - On the reversibility of adversarial attacks [41.94594666541757]
敵対攻撃は、分類器の予測を変える摂動で画像を修正する。
そこで本研究では,原画像に対して予測されたクラス間のマッピングの予測可能性と,対応する逆例について検討する。
我々は, 可逆性を, 逆例の原クラスや真クラスを検索する際の精度として定量化する。
論文 参考訳(メタデータ) (2022-06-01T21:18:11Z) - Necessity and Sufficiency for Explaining Text Classifiers: A Case Study
in Hate Speech Detection [7.022948483613112]
本稿では,テキスト分類器を記述し,ヘイトスピーチ検出の文脈で解析する特徴属性法を提案する。
我々は2つの相補的で理論的に根ざしたスコア -- 必然性と十分性 -- を提供し、より情報的な説明をもたらす。
提案手法は,テストスイートから得られた同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,必要条件と有効条件の異なる値が,異なる種類の偽陽性誤りに対応していることを示す。
論文 参考訳(メタデータ) (2022-05-06T15:34:48Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T03:49:22Z) - Classifier-independent Lower-Bounds for Adversarial Robustness [13.247278149124757]
理論的には、テストタイムの逆数と雑音の分類例に対するロバスト性の限界を解析する。
最適輸送理論を用いて、与えられた分類問題に対して分類器ができるベイズ最適誤差の変分式を導出する。
一般的な距離ベース攻撃の場合,ベイズ最適誤差に対して明らかな下限を導出する。
論文 参考訳(メタデータ) (2020-06-17T16:46:39Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。