論文の概要: TokenBreak: Bypassing Text Classification Models Through Token Manipulation
- arxiv url: http://arxiv.org/abs/2506.07948v1
- Date: Mon, 09 Jun 2025 17:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.072806
- Title: TokenBreak: Bypassing Text Classification Models Through Token Manipulation
- Title(参考訳): TokenBreak:Token操作を通じてテキスト分類モデルをバイパスする
- Authors: Kasimir Schulz, Kenneth Yeung, Kieran Evans,
- Abstract要約: テキスト分類モデルは、LLM(Large Language Models)に対する即発的なインジェクション攻撃のような脅威を防ぐために実装することができる。
TokenBreakを紹介します。トークン化戦略を活用することで、これらの保護モデルを回避できる新たな攻撃です。
重要なことは、エンドターゲット(LLMまたはEメール受信者)は、まだ操作されたテキストを理解して応答することができ、そのため、保護モデルが配置された非常に攻撃に弱いことである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural Language Processing (NLP) models are used for text-related tasks such as classification and generation. To complete these tasks, input data is first tokenized from human-readable text into a format the model can understand, enabling it to make inferences and understand context. Text classification models can be implemented to guard against threats such as prompt injection attacks against Large Language Models (LLMs), toxic input and cybersecurity risks such as spam emails. In this paper, we introduce TokenBreak: a novel attack that can bypass these protection models by taking advantage of the tokenization strategy they use. This attack technique manipulates input text in such a way that certain models give an incorrect classification. Importantly, the end target (LLM or email recipient) can still understand and respond to the manipulated text and therefore be vulnerable to the very attack the protection model was put in place to prevent. The tokenizer is tied to model architecture, meaning it is possible to predict whether or not a model is vulnerable to attack based on family. We also present a defensive strategy as an added layer of protection that can be implemented without having to retrain the defensive model.
- Abstract(参考訳): 自然言語処理(NLP)モデルは、分類や生成といったテキスト関連のタスクに使用される。
これらのタスクを完了するために、入力データは、まず人間可読テキストからモデルが理解できるフォーマットにトークン化され、推論とコンテキスト理解を可能にする。
テキスト分類モデルは、LLM(Large Language Models)に対する迅速なインジェクション攻撃、有害な入力、スパムメールなどのサイバーセキュリティリスクなどの脅威から保護するために実装することができる。
本稿では,トークン化戦略を活用することで,これらの保護モデルを回避できる新たな攻撃手法であるTokenBreakを紹介する。
この攻撃手法は入力テキストを特定のモデルが誤った分類を与えるように操作する。
重要なことは、エンドターゲット(LLMまたはEメール受信者)は、まだ操作されたテキストを理解して応答することができ、そのため、保護モデルが配置された非常に攻撃に弱いことである。
トークン化器はモデルアーキテクチャと結びついているので、モデルがファミリーに基づいて攻撃に対して脆弱であるかどうかを予測することができる。
また,防衛モデルの再訓練を必要とせずに実施可能な保護層として,防衛戦略を提案する。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Defense Against Syntactic Textual Backdoor Attacks with Token Substitution [15.496176148454849]
トレーニング段階では、慎重に選択されたトリガを犠牲者モデルに組み込んで、特定のクラスと同じトリガを含む入力を誤って予測する。
本稿では,構文ベースと特別なトークンベースのバックドア攻撃を効果的に対処する新しいオンライン防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-04T22:48:57Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - PETGEN: Personalized Text Generation Attack on Deep Sequence
Embedding-based Classification Models [9.630961791758168]
悪意のあるユーザは、行動を操作することによって、深い検出モデルを回避することができる。
ここでは、ディープユーザシーケンスの埋め込みに基づく分類モデルに対して、新たな逆攻撃モデルを作成する。
攻撃では、敵は分類器を騙すために新しいポストを生成する。
論文 参考訳(メタデータ) (2021-09-14T15:48:07Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。