論文の概要: Adversarial Black-Box Attacks On Text Classifiers Using Multi-Objective
Genetic Optimization Guided By Deep Networks
- arxiv url: http://arxiv.org/abs/2011.03901v2
- Date: Tue, 10 Nov 2020 04:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:28:44.131551
- Title: Adversarial Black-Box Attacks On Text Classifiers Using Multi-Objective
Genetic Optimization Guided By Deep Networks
- Title(参考訳): ディープネットワークによる多目的遺伝的最適化によるテキスト分類器の逆ブラックボックス攻撃
- Authors: Alex Mathai, Shreya Khare, Srikanth Tamilselvam, Senthil Mani
- Abstract要約: ブラックボックスの逆転例を生成する新しい遺伝的アルゴリズムを提案する。
SSTおよびIMDB感情データセットにおけるDeepWordBug(DWB)との比較を行った。
- 参考スコア(独自算出の注目度): 7.819584306418343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel genetic-algorithm technique that generates black-box
adversarial examples which successfully fool neural network based text
classifiers. We perform a genetic search with multi-objective optimization
guided by deep learning based inferences and Seq2Seq mutation to generate
semantically similar but imperceptible adversaries. We compare our approach
with DeepWordBug (DWB) on SST and IMDB sentiment datasets by attacking three
trained models viz. char-LSTM, word-LSTM and elmo-LSTM. On an average, we
achieve an attack success rate of 65.67% for SST and 36.45% for IMDB across the
three models showing an improvement of 49.48% and 101% respectively.
Furthermore, our qualitative study indicates that 94% of the time, the users
were not able to distinguish between an original and adversarial sample.
- Abstract(参考訳): ニューラルネットワークベースのテキスト分類器をうまく騙すブラックボックスの逆転例を生成する新しい遺伝的アルゴリズムを提案する。
深層学習に基づく推論とseq2seq変異によって誘導される多目的最適化による遺伝的探索を行い,意味的に類似するが不可避な敵を生成する。
SSTとIMDBの感情データセットに対するDeepWordBug(DWB)のアプローチを, char-LSTM, word-LSTM, elmo-LSTMの3つのトレーニングモデルを攻撃することで比較した。
平均して、sstでは65.67%、imdbでは36.45%のアタック成功率を達成し、それぞれ49.48%と101%の改善を示した。
さらに, 定性的な調査により, 94%のユーザがオリジナル標本と敵試料を区別できなかったことが判明した。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Adaptive Ensembles of Fine-Tuned Transformers for LLM-Generated Text Detection [0.0]
大規模言語モデル (LLM) は、多種多様なテキストコンテンツを生成するのに人間のように習熟している。
これまでの研究では、主に分散データセット上の単一モデルをテストしてきた。
分布内および分布外の両方のデータセット上で、トランスフォーマーをベースとした5つのモデルを検証した。
論文 参考訳(メタデータ) (2024-03-20T06:38:13Z) - Microbial Genetic Algorithm-based Black-box Attack against Interpretable
Deep Learning Systems [16.13790238416691]
ホワイトボックス環境では、解釈可能なディープラーニングシステム(IDLS)が悪意のある操作に対して脆弱であることが示されている。
本稿では,IDLSに対するクエリ効率の高いScoreベースのブラックボックス攻撃QuScoreを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:08:52Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。