論文の概要: TokenBreak: Bypassing Text Classification Models Through Token Manipulation
- arxiv url: http://arxiv.org/abs/2506.07948v1
- Date: Mon, 09 Jun 2025 17:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.072806
- Title: TokenBreak: Bypassing Text Classification Models Through Token Manipulation
- Title(参考訳): TokenBreak:Token操作を通じてテキスト分類モデルをバイパスする
- Authors: Kasimir Schulz, Kenneth Yeung, Kieran Evans,
- Abstract要約: テキスト分類モデルは、LLM(Large Language Models)に対する即発的なインジェクション攻撃のような脅威を防ぐために実装することができる。
TokenBreakを紹介します。トークン化戦略を活用することで、これらの保護モデルを回避できる新たな攻撃です。
重要なことは、エンドターゲット(LLMまたはEメール受信者)は、まだ操作されたテキストを理解して応答することができ、そのため、保護モデルが配置された非常に攻撃に弱いことである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural Language Processing (NLP) models are used for text-related tasks such as classification and generation. To complete these tasks, input data is first tokenized from human-readable text into a format the model can understand, enabling it to make inferences and understand context. Text classification models can be implemented to guard against threats such as prompt injection attacks against Large Language Models (LLMs), toxic input and cybersecurity risks such as spam emails. In this paper, we introduce TokenBreak: a novel attack that can bypass these protection models by taking advantage of the tokenization strategy they use. This attack technique manipulates input text in such a way that certain models give an incorrect classification. Importantly, the end target (LLM or email recipient) can still understand and respond to the manipulated text and therefore be vulnerable to the very attack the protection model was put in place to prevent. The tokenizer is tied to model architecture, meaning it is possible to predict whether or not a model is vulnerable to attack based on family. We also present a defensive strategy as an added layer of protection that can be implemented without having to retrain the defensive model.
- Abstract(参考訳): 自然言語処理(NLP)モデルは、分類や生成といったテキスト関連のタスクに使用される。
これらのタスクを完了するために、入力データは、まず人間可読テキストからモデルが理解できるフォーマットにトークン化され、推論とコンテキスト理解を可能にする。
テキスト分類モデルは、LLM(Large Language Models)に対する迅速なインジェクション攻撃、有害な入力、スパムメールなどのサイバーセキュリティリスクなどの脅威から保護するために実装することができる。
本稿では,トークン化戦略を活用することで,これらの保護モデルを回避できる新たな攻撃手法であるTokenBreakを紹介する。
この攻撃手法は入力テキストを特定のモデルが誤った分類を与えるように操作する。
重要なことは、エンドターゲット(LLMまたはEメール受信者)は、まだ操作されたテキストを理解して応答することができ、そのため、保護モデルが配置された非常に攻撃に弱いことである。
トークン化器はモデルアーキテクチャと結びついているので、モデルがファミリーに基づいて攻撃に対して脆弱であるかどうかを予測することができる。
また,防衛モデルの再訓練を必要とせずに実施可能な保護層として,防衛戦略を提案する。
関連論文リスト
- An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。