論文の概要: Adv-OLM: Generating Textual Adversaries via OLM
- arxiv url: http://arxiv.org/abs/2101.08523v1
- Date: Thu, 21 Jan 2021 10:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:08:25.637224
- Title: Adv-OLM: Generating Textual Adversaries via OLM
- Title(参考訳): Adv-OLM:OLMによるテキスト・アドベナリーの生成
- Authors: Vijit Malik and Ashwani Bhat and Ashutosh Modi
- Abstract要約: 本論文では,Occlusion and Language Models (OLM) のアイデアを現在の美術的攻撃手法に適応させるブラックボックス攻撃手法である Adv-OLM を提案する。
提案手法は,テキスト分類タスクにおいて,他の攻撃方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.1012672709024294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning models are susceptible to adversarial examples that have
imperceptible perturbations in the original input, resulting in adversarial
attacks against these models. Analysis of these attacks on the state of the art
transformers in NLP can help improve the robustness of these models against
such adversarial inputs. In this paper, we present Adv-OLM, a black-box attack
method that adapts the idea of Occlusion and Language Models (OLM) to the
current state of the art attack methods. OLM is used to rank words of a
sentence, which are later substituted using word replacement strategies. We
experimentally show that our approach outperforms other attack methods for
several text classification tasks.
- Abstract(参考訳): ディープラーニングモデルは、元の入力に不可避な摂動を持つ敵の例に影響を受けやすく、その結果、これらのモデルに対する敵意攻撃を引き起こす。
nlpにおけるアートトランスフォーマーの状態に対するこれらの攻撃の解析は、そのような敵対的入力に対するこれらのモデルのロバスト性を改善するのに役立つ。
本稿では,オクルージョンと言語モデル(olm)の考え方をアートアタック手法の現況に適用するブラックボックス攻撃法adv-olmを提案する。
OLMは文の単語のランク付けに使われ、後に単語置換戦略を用いて置換される。
提案手法は,テキスト分類タスクにおいて,他の攻撃方法よりも優れていることを示す。
関連論文リスト
- Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。