論文の概要: Evading Toxicity Detection with ASCII-art: A Benchmark of Spatial Attacks on Moderation Systems
- arxiv url: http://arxiv.org/abs/2409.18708v5
- Date: Wed, 24 Sep 2025 08:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.46017
- Title: Evading Toxicity Detection with ASCII-art: A Benchmark of Spatial Attacks on Moderation Systems
- Title(参考訳): ASCIIアートによる毒性検出:モデレーションシステムにおける空間攻撃のベンチマーク
- Authors: Sergey Berezin, Reza Farahbakhsh, Noel Crespi,
- Abstract要約: ASCIIアートの形で空間的に構造化されたテキストの解釈に失敗する言語モデルを利用した、毒性検出モデルに対する敵対的攻撃の新たなクラスを導入する。
我々の攻撃は、最先端の大規模言語モデルと専用モデレーションツールの多様なセットで完璧なアタック成功率(ASR)を達成する。
- 参考スコア(独自算出の注目度): 4.492444446637856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel class of adversarial attacks on toxicity detection models that exploit language models' failure to interpret spatially structured text in the form of ASCII art. To evaluate the effectiveness of these attacks, we propose ToxASCII, a benchmark designed to assess the robustness of toxicity detection systems against visually obfuscated inputs. Our attacks achieve a perfect Attack Success Rate (ASR) across a diverse set of state-of-the-art large language models and dedicated moderation tools, revealing a significant vulnerability in current text-only moderation systems.
- Abstract(参考訳): ASCIIアートの形で空間的に構造化されたテキストの解釈に失敗する言語モデルを利用した、毒性検出モデルに対する敵対的攻撃の新たなクラスを導入する。
これらの攻撃の有効性を評価するため,視覚的に難解な入力に対する毒性検出システムの堅牢性を評価するためのベンチマークToxASCIIを提案する。
我々の攻撃は、最先端の大規模言語モデルと専用モデレーションツールにまたがる完璧なアタック成功率(ASR)を実現し、現在のテキストのみのモデレーションシステムにおいて重大な脆弱性を明らかにした。
関連論文リスト
- Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。
意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。
これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。
非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文 参考訳(メタデータ) (2025-03-17T18:59:29Z) - On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks [20.972194348901958]
まず、メインストリームのウォーターマーキングスキームと、機械生成テキストに対する削除攻撃を組み合わせます。
8つの透かし(5つのプレテキスト、3つのポストテキスト)と12のアタック(2つのプレテキスト、10のポストテキスト)を87のシナリオで評価した。
その結果、KGWとExponentialの透かしは高いテキスト品質と透かしの保持を提供するが、ほとんどの攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2024-07-05T18:09:06Z) - Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs [13.008917830855832]
ASCIIアートベースの新しいジェイルブレイク攻撃を提案し、ViTC(Vision-in-Text Challenge)ベンチマークを導入する。
5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。
我々は, ASCII アート認識における LLM の性能の低下を利用して, 安全対策を回避し, 望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
論文 参考訳(メタデータ) (2024-02-19T00:43:31Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。