論文の概要: Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token
- arxiv url: http://arxiv.org/abs/2510.26847v1
- Date: Thu, 30 Oct 2025 12:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.866994
- Title: Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token
- Title(参考訳): ブローケントークン:文字数による難解なプロンプトのフィルタリング-token
- Authors: Shaked Zychlinski, Yuval Kainan,
- Abstract要約: 大規模言語モデル(LLM)は、悪意のあるプロンプトが暗号や文字レベルのエンコーディングによって偽装されるジェイルブレイク攻撃の影響を受ける。
我々はCPT-Filteringを紹介した。CPT-Filteringは、無視可能なコストとほぼ完全精度のガードレール技術で、モデルに依存しない新しい手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are susceptible to jailbreak attacks where malicious prompts are disguised using ciphers and character-level encodings to bypass safety guardrails. While these guardrails often fail to interpret the encoded content, the underlying models can still process the harmful instructions. We introduce CPT-Filtering, a novel, model-agnostic with negligible-costs and near-perfect accuracy guardrail technique that aims to mitigate these attacks by leveraging the intrinsic behavior of Byte-Pair Encoding (BPE) tokenizers. Our method is based on the principle that tokenizers, trained on natural language, represent out-of-distribution text, such as ciphers, using a significantly higher number of shorter tokens. Our technique uses a simple yet powerful artifact of using language models: the average number of Characters Per Token (CPT) in the text. This approach is motivated by the high compute cost of modern methods - relying on added modules such as dedicated LLMs or perplexity models. We validate our approach across a large dataset of over 100,000 prompts, testing numerous encoding schemes with several popular tokenizers. Our experiments demonstrate that a simple CPT threshold robustly identifies encoded text with high accuracy, even for very short inputs. CPT-Filtering provides a practical defense layer that can be immediately deployed for real-time text filtering and offline data curation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、悪意のあるプロンプトを暗号や文字レベルのエンコーディングを使って偽装して安全ガードレールをバイパスするジェイルブレイク攻撃の影響を受ける。
これらのガードレールは、しばしばエンコードされたコンテンツの解釈に失敗するが、基盤となるモデルは有害な命令を処理することができる。
CPT-Filteringは,バイトペアエンコーディング(BPE)トークンの本質的な動作を活用することにより,これらの攻撃を軽減することを目的とした,無視可能なコストとほぼ完全精度のガードレール技術である。
提案手法は, より短いトークン数を用いて, 自然言語で学習したトークン化者が, 暗号などの配布外テキストを表現するという原理に基づいている。
提案手法では,テキスト中の文字数あたりの文字数(CPT)という,言語モデルを用いたシンプルな,かつ強力な成果物を用いている。
このアプローチは、専用のLLMやパープレキシティモデルなどの追加モジュールに依存して、現代的なメソッドの計算コストが高いことによる。
我々は10万以上のプロンプトからなる大規模なデータセットにアプローチを検証し、いくつかの一般的なトークン化器で多数の符号化スキームをテストした。
実験により、非常に短い入力であっても、単純なCPTしきい値が高い精度で符号化されたテキストを確実に識別できることが実証された。
CPT-Filteringは、リアルタイムテキストフィルタリングとオフラインデータキュレーションのために即座にデプロイできる実用的な防御層を提供する。
関連論文リスト
- LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。
本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。
実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-04T16:19:05Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。
これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。
最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。
我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文 参考訳(メタデータ) (2025-06-16T04:33:48Z) - BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization [0.0]
SCRIPT (Script Category Representation in PreTokenization) は、Unicodeスクリプトとカテゴリプロパティに基づいた初期トークンを使用することで、バイト8変換をバイパスする新しい符号化方式である。
実験により,SCRIPT-BPEは,非ラテン文字言語に対する符号化に基づくペナルティを排除しながら,競合圧縮を実現することを示した。
論文 参考訳(メタデータ) (2025-05-30T15:12:41Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Plentiful Jailbreaks with String Compositions [0.0]
大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクメソッドに対して脆弱なままである。
我々のチームは、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統合した。
論文 参考訳(メタデータ) (2024-11-01T23:53:00Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。