論文の概要: Emoti-Attack: Zero-Perturbation Adversarial Attacks on NLP Systems via Emoji Sequences
- arxiv url: http://arxiv.org/abs/2502.17392v1
- Date: Mon, 24 Feb 2025 18:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:52.644592
- Title: Emoti-Attack: Zero-Perturbation Adversarial Attacks on NLP Systems via Emoji Sequences
- Title(参考訳): エモティ・アタック:エモジシーケンスによるNLPシステムにおけるゼロ摂動対向攻撃
- Authors: Yangshijie Zhang,
- Abstract要約: 本稿では,絵文字の操作を利用して,微妙で効果的な摂動を生成する新しい敵攻撃手法である絵文字・アタックを紹介する。
エモジ・アタックは、大型モデルと小型モデルの両方で強力な攻撃性能を達成し、NLPシステムの対向ロバスト性を高めるための有望な技術である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deep neural networks (DNNs) have achieved remarkable success in the field of natural language processing (NLP), leading to widely recognized applications such as ChatGPT. However, the vulnerability of these models to adversarial attacks remains a significant concern. Unlike continuous domains like images, text exists in a discrete space, making even minor alterations at the sentence, word, or character level easily perceptible to humans. This inherent discreteness also complicates the use of conventional optimization techniques, as text is non-differentiable. Previous research on adversarial attacks in text has focused on character-level, word-level, sentence-level, and multi-level approaches, all of which suffer from inefficiency or perceptibility issues due to the need for multiple queries or significant semantic shifts. In this work, we introduce a novel adversarial attack method, Emoji-Attack, which leverages the manipulation of emojis to create subtle, yet effective, perturbations. Unlike character- and word-level strategies, Emoji-Attack targets emojis as a distinct layer of attack, resulting in less noticeable changes with minimal disruption to the text. This approach has been largely unexplored in previous research, which typically focuses on emoji insertion as an extension of character-level attacks. Our experiments demonstrate that Emoji-Attack achieves strong attack performance on both large and small models, making it a promising technique for enhancing adversarial robustness in NLP systems.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は自然言語処理(NLP)分野において顕著な成功を収めており、ChatGPTのような広く認識されている応用につながっている。
しかし、これらのモデルの敵攻撃に対する脆弱性は依然として重大な懸念である。
画像のような連続的な領域とは異なり、テキストは離散的な空間に存在し、文、単語、文字レベルでの微妙な変化さえ容易に人間に知覚できる。
この固有の離散性は、テキストが微分不可能であるため、従来の最適化手法の使用を複雑にする。
テキストにおける敵攻撃に関するこれまでの研究は、文字レベル、単語レベル、文レベル、およびマルチレベルアプローチに重点を置いており、これらは全て、複数のクエリや重要なセマンティックシフトを必要とするため、非効率性や知覚性の問題に悩まされている。
本研究では,絵文字の操作を生かし,微妙で効果的な摂動を作り出す新しい敵攻撃手法である絵文字・アタックを導入する。
文字レベルの戦略や単語レベルの戦略とは異なり、絵文字を個別の攻撃層としてターゲットとしており、テキストの破壊を最小限に抑えながら目立った変更は少ない。
従来の研究では、主に文字レベルの攻撃の拡張として絵文字の挿入に焦点を当てていた。
実験の結果,Emoji-Attackは大型モデルと小型モデルの両方で強力な攻撃性能を達成し,NLPシステムの対向ロバスト性向上に有効であることがわかった。
関連論文リスト
- Deceiving Question-Answering Models: A Hybrid Word-Level Adversarial Approach [11.817276791266284]
本稿では,QAモデルを騙す新しい単語レベル対逆戦略であるQA-Attackを紹介する。
我々のアテンションベースの攻撃は、特定の単語を識別・ターゲットするために、カスタマイズされたアテンション機構と削除ランキング戦略を利用する。
同義語を慎重に選択し置換し、文法的整合性を保ちながら、間違った反応を生み出すためにモデルを誤解させる。
論文 参考訳(メタデータ) (2024-11-12T23:54:58Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Phrase-level Textual Adversarial Attack with Label Preservation [34.42846737465045]
本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。
PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
論文 参考訳(メタデータ) (2022-05-22T02:22:38Z) - Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations [11.93653349589025]
逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-29T02:32:02Z) - Bad Characters: Imperceptible NLP Attacks [16.357959724298745]
敵対的な例のクラスは、ブラックボックスの設定でテキストベースのモデルを攻撃するために使用することができる。
単一の知覚不可能なエンコーディングインジェクションでは、攻撃者は脆弱なモデルの性能を大幅に低下させることができる。
弊社の攻撃は、MicrosoftやGoogleなど、現在展開中の商用システムに対するものだ。
論文 参考訳(メタデータ) (2021-06-18T03:42:56Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。