論文の概要: Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal
- arxiv url: http://arxiv.org/abs/2404.17808v2
- Date: Fri, 08 Nov 2024 11:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:36.480160
- Title: Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal
- Title(参考訳): Scaffold-BPE: 単純かつ効果的なScaffoldトークン除去による大規模言語モデルのためのバイトコードペアエンコーディングの強化
- Authors: Haoran Lian, Yizhe Xiong, Jianwei Niu, Shasha Mo, Zhenpeng Su, Zijia Lin, Hui Chen, Peng Liu, Jungong Han, Guiguang Ding,
- Abstract要約: そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 58.29382184006158
- License:
- Abstract: Byte Pair Encoding (BPE) serves as a foundation method for text tokenization in the Natural Language Processing (NLP) field. Despite its wide adoption, the original BPE algorithm harbors an inherent flaw: it inadvertently introduces a frequency imbalance for tokens in the text corpus. Since BPE iteratively merges the most frequent token pair in the text corpus to generate a new token and keeps all generated tokens in the vocabulary, it unavoidably holds tokens that primarily act as components of a longer token and appear infrequently on their own. We term such tokens as Scaffold Tokens. Due to their infrequent occurrences in the text corpus, Scaffold Tokens pose a learning imbalance issue. To address that issue, we propose Scaffold-BPE, which incorporates a dynamic scaffold token removal mechanism by parameter-free, computation-light, and easy-to-implement modifications to the original BPE method. This novel approach ensures the exclusion of low-frequency Scaffold Tokens from the token representations for given texts, thereby mitigating the issue of frequency imbalance and facilitating model training. On extensive experiments across language modeling and even machine translation, Scaffold-BPE consistently outperforms the original BPE, well demonstrating its effectiveness.
- Abstract(参考訳): Byte Pair Encoding (BPE) は自然言語処理(NLP)分野におけるテキストトークン化の基礎となる手法である。
広く採用されているにもかかわらず、オリジナルのBPEアルゴリズムには固有の欠陥がある。
BPEはテキストコーパス内で最も頻繁なトークンペアを反復的にマージして新しいトークンを生成し、すべての生成されたトークンを語彙に保持するので、必然的に、より長いトークンの構成要素として機能し、しばしば単独で現れるトークンを保持する。
このようなトークンをScaffold Tokensと呼びます。
テキストコーパスでの頻繁な発生のため、スカフォードトークンは学習不均衡の問題を提起する。
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的スキャフォールドトークン除去機構を組み込んだScaffold-BPEを提案する。
この手法により、与えられたテキストのトークン表現から低周波のスカフォルドトークンを排除し、周波数不均衡の問題を緩和し、モデルの訓練を容易にする。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEを一貫して上回り、その効果をよく示している。
関連論文リスト
- LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。
符号化プロセス中に長いトークンを優先するLBPEを提案する。
多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-11-08T12:03:36Z) - Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers [32.274579719726546]
トークン化は、人間可読テキストをモデル可読な離散トークンでブリッジする重要なステップである。
近年の研究では、トークン化剤が不要なモデル挙動を引き出すために利用できることが判明している。
非完全トークン、すなわち、バイトレベルバイトペア符号化(BPE)トークン化(英語版)による不完全トークン、すなわち、不完全トークンについて検討する。
論文 参考訳(メタデータ) (2024-10-31T07:19:44Z) - BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training [8.012203293561196]
Picky BPE(ピッキー・BPE)は、トークンーザのトレーニング中に語彙の洗練を行う改良型BPEアルゴリズムである。
本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。
論文 参考訳(メタデータ) (2024-09-06T20:12:34Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。