論文の概要: TextDecepter: Hard Label Black Box Attack on Text Classifiers
- arxiv url: http://arxiv.org/abs/2008.06860v6
- Date: Mon, 28 Dec 2020 00:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 09:06:11.485238
- Title: TextDecepter: Hard Label Black Box Attack on Text Classifiers
- Title(参考訳): TextDecepter: テキスト分類器に対するハードラベルブラックボックス攻撃
- Authors: Sachin Saxena
- Abstract要約: 自然言語処理(NLP)分類器に対するハードラベルブラックボックス攻撃に対する新しいアプローチを提案する。
このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has been proven to be susceptible to carefully crafted
samples, known as adversarial examples. The generation of these adversarial
examples helps to make the models more robust and gives us an insight into the
underlying decision-making of these models. Over the years, researchers have
successfully attacked image classifiers in both, white and black-box settings.
However, these methods are not directly applicable to texts as text data is
discrete. In recent years, research on crafting adversarial examples against
textual applications has been on the rise. In this paper, we present a novel
approach for hard-label black-box attacks against Natural Language Processing
(NLP) classifiers, where no model information is disclosed, and an attacker can
only query the model to get a final decision of the classifier, without
confidence scores of the classes involved. Such an attack scenario applies to
real-world black-box models being used for security-sensitive applications such
as sentiment analysis and toxic content detection.
- Abstract(参考訳): 機械学習は、敵の例として知られる、慎重に作られたサンプルに影響を受けやすいことが証明されている。
これらの敵対的な例の生成は、モデルをより堅牢にし、これらのモデルの根底にある意思決定に関する洞察を与えてくれる。
長年にわたって、研究者はホワイトボックスとブラックボックスの両方で画像分類器を攻撃してきた。
しかし、これらの方法はテキストデータが離散的であるため、直接テキストに適用できない。
近年,テキスト応用に対する逆例作成の研究が盛んに行われている。
本稿では,NLP(Natural Language Processing, 自然言語処理)分類器に対するハードラベルブラックボックス攻撃に対して,モデル情報が開示されず,攻撃者がモデルに問い合わせて最終決定を下すだけで,関連するクラスの信頼性スコアが得られない,新たなアプローチを提案する。
このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。
関連論文リスト
- On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Query Efficient Cross-Dataset Transferable Black-Box Attack on Action
Recognition [99.29804193431823]
ブラックボックスの敵攻撃は、行動認識システムに現実的な脅威をもたらす。
本稿では,摂動を発生させることにより,これらの欠点に対処する新たな行動認識攻撃を提案する。
提案手法は,最先端のクエリベースおよび転送ベース攻撃と比較して,8%,12%の偽装率を達成する。
論文 参考訳(メタデータ) (2022-11-23T17:47:49Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data [96.92837098305898]
Black-box攻撃は、機械学習モデルのインプット・アウトプットペアをクエリすることで、敵の摂動を発生させることを目的としている。
ブラックボックス攻撃はしばしば、入力空間の高次元性のためにクエリ非効率性の問題に悩まされる。
本研究では,低次元部分空間における逆摂動を,補助的なラベルのないデータセットに分散させることで抑制するスパンニング攻撃と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-11T05:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。