論文の概要: Exploiting Class Probabilities for Black-box Sentence-level Attacks
- arxiv url: http://arxiv.org/abs/2402.02695v1
- Date: Mon, 5 Feb 2024 03:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:57:59.657761
- Title: Exploiting Class Probabilities for Black-box Sentence-level Attacks
- Title(参考訳): ブラックボックスレベルの攻撃に対する爆発的クラス確率
- Authors: Raha Moraffah and Huan Liu
- Abstract要約: ブラックボックスの文レベル攻撃にクラス確率を用いるアルゴリズムを開発した。
本研究は,クラス確率が攻撃成功に及ぼす影響について検討する。
- 参考スコア(独自算出の注目度): 18.37537526008645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence-level attacks craft adversarial sentences that are synonymous with
correctly-classified sentences but are misclassified by the text classifiers.
Under the black-box setting, classifiers are only accessible through their
feedback to queried inputs, which is predominately available in the form of
class probabilities. Even though utilizing class probabilities results in
stronger attacks, due to the challenges of using them for sentence-level
attacks, existing attacks use either no feedback or only the class labels.
Overcoming the challenges, we develop a novel algorithm that uses class
probabilities for black-box sentence-level attacks, investigate the
effectiveness of using class probabilities on the attack's success, and examine
the question if it is worthy or practical to use class probabilities by
black-box sentence-level attacks. We conduct extensive evaluations of the
proposed attack comparing with the baselines across various classifiers and
benchmark datasets.
- Abstract(参考訳): 文レベルの攻撃は、正しく分類された文と同義であるが、テキスト分類器によって誤分類される逆文を作らせる。
ブラックボックス設定の下では、分類器はクエリされた入力へのフィードバックを通してのみアクセスでき、クラス確率の形では主に利用可能である。
クラス確率を利用すると、より強力な攻撃が発生するが、文レベルの攻撃に使用するという課題のため、既存の攻撃ではフィードバックもクラスラベルのみを使用する。
課題を克服するために,ブラックボックスの文レベル攻撃にクラス確率を用いたアルゴリズムを開発し,攻撃の成功にクラス確率を用いることの有効性を検証し,ブラックボックスの文レベル攻撃によるクラス確率の使用が適切か否かを問う。
提案する攻撃を,各種分類器とベンチマークデータセットのベースラインと比較し,広範な評価を行った。
関連論文リスト
- On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - FCert: Certifiably Robust Few-Shot Classification in the Era of Foundation Models [38.019489232264796]
FCertは、データ中毒攻撃に対する最初の認証された防御法であり、数発の分類である。
1)攻撃なしでの分類精度を維持すること,2)データ中毒攻撃に対する既存の認証された防御能力を上回ること,3)効率的で汎用的なこと,である。
論文 参考訳(メタデータ) (2024-04-12T17:50:40Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Parallel Rectangle Flip Attack: A Query-based Black-box Attack against
Object Detection [89.08832589750003]
本稿では,攻撃領域近傍の準最適検出を回避するために,ランダム探索による並列矩形フリップ攻撃(PRFA)を提案する。
提案手法は, アンカーベースやアンカーフリーなど, 様々な人気物体検出装置を効果的かつ効率的に攻撃し, 転送可能な対向例を生成する。
論文 参考訳(メタデータ) (2022-01-22T06:00:17Z) - PopSkipJump: Decision-Based Attack for Probabilistic Classifiers [43.62922682676909]
P(robabilisticH)opSkipJumpは、さまざまなノイズレベルのHopSkipJumpの出力品質を維持するために、クエリの量を調整する。
オフザシェルフのランダム化された防御は、決定に基づく攻撃に対して、余分な堅牢性をほとんど提供しないことを示す。
論文 参考訳(メタデータ) (2021-06-14T14:13:12Z) - Model Robustness with Text Classification: Semantic-preserving
adversarial attacks [12.31604391452686]
テキスト分類問題におけるモデルロバスト性を評価するために,逆攻撃を生成するアルゴリズムを提案する。
この攻撃は、ホワイトボックス設定でかなりの数のフリップを引き起こし、ブラックボックス設定で同じルールベースのものを使用することができる。
論文 参考訳(メタデータ) (2020-08-12T19:17:46Z) - AdvFlow: Inconspicuous Black-box Adversarial Attacks using Normalizing
Flows [11.510009152620666]
本稿では,画像分類器に対する新たなブラックボックス攻撃手法であるAdvFlowを紹介する。
提案手法では, クリーンなデータ分布に密接に従う敵が生成され, 検出の可能性が低下する。
論文 参考訳(メタデータ) (2020-07-15T02:13:49Z) - Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data [96.92837098305898]
Black-box攻撃は、機械学習モデルのインプット・アウトプットペアをクエリすることで、敵の摂動を発生させることを目的としている。
ブラックボックス攻撃はしばしば、入力空間の高次元性のためにクエリ非効率性の問題に悩まされる。
本研究では,低次元部分空間における逆摂動を,補助的なラベルのないデータセットに分散させることで抑制するスパンニング攻撃と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-11T05:57:15Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。