論文の概要: Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token
- arxiv url: http://arxiv.org/abs/2510.26847v1
- Date: Thu, 30 Oct 2025 12:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.866994
- Title: Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token
- Title(参考訳): ブローケントークン:文字数による難解なプロンプトのフィルタリング-token
- Authors: Shaked Zychlinski, Yuval Kainan,
- Abstract要約: 大規模言語モデル(LLM)は、悪意のあるプロンプトが暗号や文字レベルのエンコーディングによって偽装されるジェイルブレイク攻撃の影響を受ける。
我々はCPT-Filteringを紹介した。CPT-Filteringは、無視可能なコストとほぼ完全精度のガードレール技術で、モデルに依存しない新しい手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are susceptible to jailbreak attacks where malicious prompts are disguised using ciphers and character-level encodings to bypass safety guardrails. While these guardrails often fail to interpret the encoded content, the underlying models can still process the harmful instructions. We introduce CPT-Filtering, a novel, model-agnostic with negligible-costs and near-perfect accuracy guardrail technique that aims to mitigate these attacks by leveraging the intrinsic behavior of Byte-Pair Encoding (BPE) tokenizers. Our method is based on the principle that tokenizers, trained on natural language, represent out-of-distribution text, such as ciphers, using a significantly higher number of shorter tokens. Our technique uses a simple yet powerful artifact of using language models: the average number of Characters Per Token (CPT) in the text. This approach is motivated by the high compute cost of modern methods - relying on added modules such as dedicated LLMs or perplexity models. We validate our approach across a large dataset of over 100,000 prompts, testing numerous encoding schemes with several popular tokenizers. Our experiments demonstrate that a simple CPT threshold robustly identifies encoded text with high accuracy, even for very short inputs. CPT-Filtering provides a practical defense layer that can be immediately deployed for real-time text filtering and offline data curation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、悪意のあるプロンプトを暗号や文字レベルのエンコーディングを使って偽装して安全ガードレールをバイパスするジェイルブレイク攻撃の影響を受ける。
これらのガードレールは、しばしばエンコードされたコンテンツの解釈に失敗するが、基盤となるモデルは有害な命令を処理することができる。
CPT-Filteringは,バイトペアエンコーディング(BPE)トークンの本質的な動作を活用することにより,これらの攻撃を軽減することを目的とした,無視可能なコストとほぼ完全精度のガードレール技術である。
提案手法は, より短いトークン数を用いて, 自然言語で学習したトークン化者が, 暗号などの配布外テキストを表現するという原理に基づいている。
提案手法では,テキスト中の文字数あたりの文字数(CPT)という,言語モデルを用いたシンプルな,かつ強力な成果物を用いている。
このアプローチは、専用のLLMやパープレキシティモデルなどの追加モジュールに依存して、現代的なメソッドの計算コストが高いことによる。
我々は10万以上のプロンプトからなる大規模なデータセットにアプローチを検証し、いくつかの一般的なトークン化器で多数の符号化スキームをテストした。
実験により、非常に短い入力であっても、単純なCPTしきい値が高い精度で符号化されたテキストを確実に識別できることが実証された。
CPT-Filteringは、リアルタイムテキストフィルタリングとオフラインデータキュレーションのために即座にデプロイできる実用的な防御層を提供する。
関連論文リスト
- Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。
これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。
最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。
我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文 参考訳(メタデータ) (2025-06-16T04:33:48Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Plentiful Jailbreaks with String Compositions [0.0]
大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクメソッドに対して脆弱なままである。
我々のチームは、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統合した。
論文 参考訳(メタデータ) (2024-11-01T23:53:00Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。