Fugu-MT 論文翻訳(概要): Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity

論文の概要: Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity

arxiv url: http://arxiv.org/abs/2409.18708v2
Date: Wed, 9 Oct 2024 12:29:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 05:42:34.416393
Title: Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity
Title（参考訳）: ASCIIアートによるLSM攻撃と毒性検出システム
Authors: Sergey Berezin, Reza Farahbakhsh, Noel Crespi,
Abstract要約: 言語モデルがASCIIアートを解釈できないことを生かした,敵対的攻撃の新たなファミリーを紹介した。特殊トークンを利用したASCIIアートフォントと,テキストを埋め込んだ文字形状を用いたASCIIアートフォントを開発した。当社の攻撃は,OpenAIのo1-previewやLLaMA 3.1を含む10モデルで,完全な1.0アタック成功率を実現しています。
参考スコア（独自算出の注目度）: 1.9424018922013224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel family of adversarial attacks that exploit the inability of language models to interpret ASCII art. To evaluate these attacks, we propose the ToxASCII benchmark and develop two custom ASCII art fonts: one leveraging special tokens and another using text-filled letter shapes. Our attacks achieve a perfect 1.0 Attack Success Rate across ten models, including OpenAI's o1-preview and LLaMA 3.1. Warning: this paper contains examples of toxic language used for research purposes.
Abstract（参考訳）: 言語モデルがASCIIアートを解釈できないことを生かした,敵対的攻撃の新たなファミリーを紹介した。これらの攻撃を評価するため、ToxASCIIベンチマークを提案し、2つのカスタムASCIIアートフォントを開発する。当社の攻撃は,OpenAIのo1-previewやLLaMA 3.1を含む10モデルで,完全な1.0アタック成功率を実現しています。警告: 本論文は, 研究目的に使用される有毒言語の例を含む。

関連論文リスト

Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。 LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-05-31T13:11:14Z)
Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。 IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。 GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文参考訳（メタデータ） (2025-05-22T09:34:47Z)
Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文参考訳（メタデータ） (2025-03-17T18:59:29Z)
On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks [20.972194348901958]
まず、メインストリームのウォーターマーキングスキームと、機械生成テキストに対する削除攻撃を組み合わせます。 8つの透かし(5つのプレテキスト、3つのポストテキスト)と12のアタック(2つのプレテキスト、10のポストテキスト)を87のシナリオで評価した。その結果、KGWとExponentialの透かしは高いテキスト品質と透かしの保持を提供するが、ほとんどの攻撃に対して脆弱であることが示唆された。
論文参考訳（メタデータ） (2024-07-05T18:09:06Z)
Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文参考訳（メタデータ） (2024-02-26T10:31:45Z)
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs [13.008917830855832]
ASCIIアートベースの新しいジェイルブレイク攻撃を提案し、ViTC(Vision-in-Text Challenge)ベンチマークを導入する。 5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。我々は, ASCII アート認識における LLM の性能の低下を利用して, 安全対策を回避し, 望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
論文参考訳（メタデータ） (2024-02-19T00:43:31Z)
Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文参考訳（メタデータ） (2024-02-01T14:41:20Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文参考訳（メタデータ） (2023-07-31T08:34:24Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)
Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文参考訳（メタデータ） (2023-05-12T12:13:27Z)
Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文参考訳（メタデータ） (2022-01-21T06:16:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。