Fugu-MT 論文翻訳(概要): White-Box Attacks on Hate-speech BERT Classifiers in German with Explicit and Implicit Character Level Defense

論文の概要: White-Box Attacks on Hate-speech BERT Classifiers in German with Explicit and Implicit Character Level Defense

arxiv url: http://arxiv.org/abs/2202.05778v1
Date: Fri, 11 Feb 2022 17:20:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-14 15:34:06.836021
Title: White-Box Attacks on Hate-speech BERT Classifiers in German with Explicit and Implicit Character Level Defense
Title（参考訳）: 難解・難解な文字レベル防衛を有するドイツ語におけるHate-Speech BERT分類器に対するWhite-Box攻撃
Authors: Shahrukh Khan, Mahnoor Shahid, Navdeeppal Singh
Abstract要約: ドイツのヘイトスピーチデータセットを用いて学習したBERTモデルの対角的ロバスト性を評価する。評価を2つの新しいホワイトボックスキャラクタとワードレベルアタックで補完する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we evaluate the adversarial robustness of BERT models trained on German Hate Speech datasets. We also complement our evaluation with two novel white-box character and word level attacks thereby contributing to the range of attacks available. Furthermore, we also perform a comparison of two novel character-level defense strategies and evaluate their robustness with one another.
Abstract（参考訳）: 本研究では,ドイツのヘイトスピーチデータセットで訓練されたbertモデルの対向的ロバスト性を評価する。また、2つの新しいホワイトボックス文字と単語レベル攻撃で評価を補完し、利用可能な攻撃範囲に寄与する。さらに,2つの新規なキャラクタレベル防御戦略の比較を行い,その頑健性を評価する。

関連論文リスト

SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文参考訳（メタデータ） (2024-05-14T04:51:23Z)
Revisiting Character-level Adversarial Attacks for Language Models [53.446619686108754]
本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
論文参考訳（メタデータ） (2024-05-07T14:23:22Z)
Arabic Synonym BERT-based Adversarial Examples for Text Classification [0.0]
本稿では、アラビア語における敵対的攻撃に関する最初の単語レベル研究を紹介する。我々は、現在最先端のテキスト分類モデルの頑健さを、アラビア語の敵対的攻撃に対して評価する。新たに生成したアラビアの敵対的事例の様々なモデルへの転送可能性について検討し、防御機構の有効性について検討した。
論文参考訳（メタデータ） (2024-02-05T19:39:07Z)
Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文参考訳（メタデータ） (2024-02-01T14:41:20Z)
Large Language Models Are Better Adversaries: Exploring Generative Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文参考訳（メタデータ） (2023-10-28T06:11:07Z)
Self-Supervised Contrastive Learning with Adversarial Perturbations for Robust Pretrained Language Models [18.726529370845256]
本稿では,単語置換に基づく攻撃に対する事前学習型言語モデルBERTの堅牢性を改善する。また,BERTにおける単語レベルの対人訓練のための対人攻撃も作成する。
論文参考訳（メタデータ） (2021-07-15T21:03:34Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)
From Hero to Z\'eroe: A Benchmark of Low-Level Adversarial Attacks [23.381986209234157]
低レベルの敵攻撃の最初の大規模カタログとベンチマークを提案する。現在NLPのワークホースであるRoBERTaが攻撃に失敗していることを示す。我々のデータセットは、将来のより人間らしいNLPモデルの堅牢性をテストするためのベンチマークを提供する。
論文参考訳（メタデータ） (2020-10-12T12:35:36Z)
BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文参考訳（メタデータ） (2020-04-21T13:30:02Z)
Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文参考訳（メタデータ） (2020-03-03T18:15:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。