Fugu-MT 論文翻訳(概要): Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal

論文の概要: Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal

arxiv url: http://arxiv.org/abs/2404.17808v2
Date: Fri, 08 Nov 2024 11:56:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.095524
Title: Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal
Title（参考訳）: Scaffold-BPE: 単純かつ効果的なScaffoldトークン除去による大規模言語モデルのためのバイトコードペアエンコーディングの強化
Authors: Haoran Lian, Yizhe Xiong, Jianwei Niu, Shasha Mo, Zhenpeng Su, Zijia Lin, Hui Chen, Peng Liu, Jungong Han, Guiguang Ding,
Abstract要約: そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
参考スコア（独自算出の注目度）: 58.29382184006158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Byte Pair Encoding (BPE) serves as a foundation method for text tokenization in the Natural Language Processing (NLP) field. Despite its wide adoption, the original BPE algorithm harbors an inherent flaw: it inadvertently introduces a frequency imbalance for tokens in the text corpus. Since BPE iteratively merges the most frequent token pair in the text corpus to generate a new token and keeps all generated tokens in the vocabulary, it unavoidably holds tokens that primarily act as components of a longer token and appear infrequently on their own. We term such tokens as Scaffold Tokens. Due to their infrequent occurrences in the text corpus, Scaffold Tokens pose a learning imbalance issue. To address that issue, we propose Scaffold-BPE, which incorporates a dynamic scaffold token removal mechanism by parameter-free, computation-light, and easy-to-implement modifications to the original BPE method. This novel approach ensures the exclusion of low-frequency Scaffold Tokens from the token representations for given texts, thereby mitigating the issue of frequency imbalance and facilitating model training. On extensive experiments across language modeling and even machine translation, Scaffold-BPE consistently outperforms the original BPE, well demonstrating its effectiveness.
Abstract（参考訳）: Byte Pair Encoding (BPE) は自然言語処理(NLP)分野におけるテキストトークン化の基礎となる手法である。広く採用されているにもかかわらず、オリジナルのBPEアルゴリズムには固有の欠陥がある。 BPEはテキストコーパス内で最も頻繁なトークンペアを反復的にマージして新しいトークンを生成し、すべての生成されたトークンを語彙に保持するので、必然的に、より長いトークンの構成要素として機能し、しばしば単独で現れるトークンを保持する。このようなトークンをScaffold Tokensと呼びます。テキストコーパスでの頻繁な発生のため、スカフォードトークンは学習不均衡の問題を提起する。そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的スキャフォールドトークン除去機構を組み込んだScaffold-BPEを提案する。この手法により、与えられたテキストのトークン表現から低周波のスカフォルドトークンを排除し、周波数不均衡の問題を緩和し、モデルの訓練を容易にする。言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEを一貫して上回り、その効果をよく示している。

関連論文リスト

Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [62.35048154917945]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。本稿ではParity-aware Byte Pairを紹介する。私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文参考訳（メタデータ） (2025-08-06T18:14:43Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。 SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文参考訳（メタデータ） (2025-03-17T17:53:23Z)
LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。符号化プロセス中に長いトークンを優先するLBPEを提案する。多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-11-08T12:03:36Z)
Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers [32.274579719726546]
トークン化は、人間可読テキストをモデル可読な離散トークンでブリッジする重要なステップである。近年の研究では、トークン化剤が不要なモデル挙動を引き出すために利用できることが判明している。非完全トークン、すなわち、バイトレベルバイトペア符号化(BPE)トークン化(英語版)による不完全トークン、すなわち、不完全トークンについて検討する。
論文参考訳（メタデータ） (2024-10-31T07:19:44Z)
BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training [8.012203293561196]
Picky BPE(ピッキー・BPE)は、トークンーザのトレーニング中に語彙の洗練を行う改良型BPEアルゴリズムである。本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。
論文参考訳（メタデータ） (2024-09-06T20:12:34Z)
Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-08-05T09:37:21Z)
Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。 (BPE)はデータ圧縮の分野に由来する。 PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文参考訳（メタデータ） (2024-02-28T14:52:15Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)
Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文参考訳（メタデータ） (2020-10-09T05:55:05Z)
Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文参考訳（メタデータ） (2020-04-07T21:21:06Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。