論文の概要: Bit-level BPE: Below the byte boundary
- arxiv url: http://arxiv.org/abs/2506.07541v1
- Date: Mon, 09 Jun 2025 08:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.865355
- Title: Bit-level BPE: Below the byte boundary
- Title(参考訳): ビットレベルBPE:バイト境界以下
- Authors: Sangwhan Moon, Tatsuya Hiraoka, Naoaki Okazaki,
- Abstract要約: サブワードトークン化のためのバイトレベルのフォールバックは、大規模言語モデルにおいて一般的なプラクティスとなっている。
本稿では,シーケンス長を無作為に削減する単純な圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 25.344240111439824
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Byte-level fallbacks for subword tokenization have become a common practice in large language models. In particular, it has been demonstrated to be incredibly effective as a pragmatic solution for preventing OOV, especially in the context of larger models. However, breaking a character down to individual bytes significantly increases the sequence length for long-tail tokens in languages such as Chinese, Japanese, and Korean (CJK) and other character-diverse contexts such as emoji. The increased sequence length results in longer computation during both training and inference. In this work, we propose a simple compression technique that reduces the sequence length losslessly.
- Abstract(参考訳): サブワードトークン化のためのバイトレベルのフォールバックは、大規模言語モデルにおいて一般的なプラクティスとなっている。
特に、特に大型モデルの文脈において、OOVの防止のための実用的解決策として信じられないほど効果的であることが示されている。
しかし、漢字を個々のバイトに分解すると、中国語、日本語、韓国語(CJK)などの言語における長い尾のトークンのシーケンス長が著しく増加する。
シーケンス長の増大は、トレーニングと推論の間に長い計算をもたらす。
本研究では,シーケンス長をロスレスで削減する簡単な圧縮手法を提案する。
関連論文リスト
- MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - Boundless Byte Pair Encoding: Breaking the Pre-tokenization Barrier [4.300681074103876]
事前トークン化は、コーパス内のトークンの分布を一般的なフル長の単語に歪ませる原因となる。
本研究では,境界制約を緩和する改良型BPEアルゴリズムであるBoundlessBを提案する。
我々のアプローチは、2つの完全プレトケンを選択的にスーパーワードと呼ぶより大きな単位にマージする。
論文 参考訳(メタデータ) (2025-03-31T19:36:29Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。
バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。
動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。
符号化プロセス中に長いトークンを優先するLBPEを提案する。
多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-11-08T12:03:36Z) - MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この研究は、より効率的なByT5の変種であるMrT5(MergeT5)を導入し、トークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
MrT5は、削除されたトークンから重要な情報をよりコンパクトなシーケンスに"マージ"し、残りのトークンからコンテキスト情報を活用する。
MrT5は、XNLI、TyDi QA、文字レベルのタスクなどの下流評価ではByT5に匹敵する精度を示し、シーケンス長を最大75%削減する。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。