論文の概要: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
- arxiv url: http://arxiv.org/abs/2410.23684v1
- Date: Thu, 31 Oct 2024 07:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:15.031190
- Title: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
- Title(参考訳): 非可逆ビグラムは、バイトレベルトークン化器の不完全トークンの脆弱性を露呈する
- Authors: Eugene Jang, Kimin Lee, Jin-Woo Chung, Keuntae Park, Seungwon Shin,
- Abstract要約: トークン化は、人間可読テキストをモデル可読な離散トークンでブリッジする重要なステップである。
近年の研究では、トークン化剤が不要なモデル挙動を引き出すために利用できることが判明している。
非完全トークン、すなわち、バイトレベルバイトペア符号化(BPE)トークン化(英語版)による不完全トークン、すなわち、不完全トークンについて検討する。
- 参考スコア(独自算出の注目度): 32.274579719726546
- License:
- Abstract: Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, alternative tokenizations of the same phrases result in drastically lower rates of hallucination (93% reduction in Llama3.1). We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may impede the development of trustworthy language models.
- Abstract(参考訳): トークン化は、人間可読テキストをモデル可読な離散トークンでブリッジする重要なステップである。
しかし、最近の研究では、トークン化剤が不要なモデル挙動を引き出すために利用できることが明らかにされている。
本研究では,不完全トークン,すなわち,バイトレベルのバイトペア符号化(BPE)トークン化によって生じる不完全トークンについて検討する。
このようなトークンは、隣接するトークンに大きく依存しており、馴染みのないトークンと組み合わせると脆弱である、という仮説を立てる。
この脆弱性を示すために、我々は、不完全なトークンのアウト・オブ・ディストリビューション・コンビネーション(out-of-distribution combinations of uncomplete tokens)という、不可能なビッグラムを導入した。
実験の結果, 難治性の大群は幻覚行動に顕著に影響を及ぼすことが明らかとなった。
驚いたことに、同じフレーズの代替トークン化は幻覚率を大幅に低下させる(Llama3.1の93%の減少)。
我々は、バイトレベルのBPEトークンーザがもたらす潜在的な脆弱性に注意し、信頼できる言語モデルの開発を妨げる可能性がある。
関連論文リスト
- LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。
符号化プロセス中に長いトークンを優先するLBPEを提案する。
多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-11-08T12:03:36Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。