論文の概要: Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2409.15381v1
- Date: Sat, 21 Sep 2024 09:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:20:55.013404
- Title: Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation
- Title(参考訳): 音声部分に対する敵対的攻撃--テキスト・画像生成における実証的研究
- Authors: G M Shahariar, Jia Chen, Jiachen Li, Yue Dong,
- Abstract要約: テキストプロンプト内の異なるPOSタグに対する敵対攻撃がT2Iモデルによって生成された画像に与える影響について検討する。
その結果,攻撃成功率 (ASR) はPOSタグのカテゴリーによって大きく異なることがわかった。
反対接尾辞の操舵効果のメカニズムを考察し, POSタグに有意なトークン数と内容の融合数が異なることを見出した。
- 参考スコア(独自算出の注目度): 11.582430999405329
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies show that text-to-image (T2I) models are vulnerable to adversarial attacks, especially with noun perturbations in text prompts. In this study, we investigate the impact of adversarial attacks on different POS tags within text prompts on the images generated by T2I models. We create a high-quality dataset for realistic POS tag token swapping and perform gradient-based attacks to find adversarial suffixes that mislead T2I models into generating images with altered tokens. Our empirical results show that the attack success rate (ASR) varies significantly among different POS tag categories, with nouns, proper nouns, and adjectives being the easiest to attack. We explore the mechanism behind the steering effect of adversarial suffixes, finding that the number of critical tokens and content fusion vary among POS tags, while features like suffix transferability are consistent across categories. We have made our implementation publicly available at - https://github.com/shahariar-shibli/Adversarial-Attack-on-POS-Tags.
- Abstract(参考訳): 近年の研究では、テキスト・ツー・イメージ(T2I)モデルは、特にテキスト・プロンプトにおける名詞の摂動に弱いことが示されている。
本研究では,テキストプロンプト内の異なるPOSタグに対する敵対攻撃が,T2Iモデルによって生成された画像に与える影響について検討する。
我々は、現実的なPOSタグトークンスワッピングのための高品質なデータセットを作成し、T2Iモデルを誤解させる逆接接尾辞を見つけるために勾配ベースの攻撃を実行し、変更したトークンで画像を生成する。
実験の結果,攻撃成功率 (ASR) は, 名詞, 固有名詞, 形容詞など, POSタグのカテゴリーによって大きく異なることが明らかとなった。
本稿では, 逆接接尾辞の操舵効果のメカニズムを考察し, POSタグ間で臨界トークン数やコンテンツ融合の数が異なること, 接尾辞伝達性などの特徴がカテゴリ毎に一致していることを見出した。
実装は、https://github.com/shahariar-shibli/Adversarial-Attack-on-POS-Tagsで公開しました。
関連論文リスト
- Revisiting Character-level Adversarial Attacks for Language Models [53.446619686108754]
本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
論文 参考訳(メタデータ) (2024-05-07T14:23:22Z) - OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。