論文の概要: SpaceByte: Towards Deleting Tokenization from Large Language Modeling
- arxiv url: http://arxiv.org/abs/2404.14408v3
- Date: Sun, 06 Oct 2024 02:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:46.032262
- Title: SpaceByte: Towards Deleting Tokenization from Large Language Modeling
- Title(参考訳): SpaceByte: 大規模言語モデリングからトークン化を削除する
- Authors: Kevin Slagle,
- Abstract要約: トークン化は、パフォーマンスが大幅に向上するため、大きな言語モデルで広く使用されている。
バイトレベルとサブワード自動回帰言語モデリングのパフォーマンスギャップを埋める新しいバイトレベルデコーダアーキテクチャであるSpaceByteを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Tokenization is widely used in large language models because it significantly improves performance. However, tokenization imposes several disadvantages, such as performance biases, increased adversarial vulnerability, decreased character-level modeling performance, and increased modeling complexity. To address these disadvantages without sacrificing performance, we propose SpaceByte, a novel byte-level decoder architecture that closes the performance gap between byte-level and subword autoregressive language modeling. SpaceByte consists of a byte-level Transformer model, but with extra larger transformer blocks inserted in the middle of the layers. We find that performance is significantly improved by applying these larger blocks only after certain bytes, such as space characters, which typically denote word boundaries. Our experiments show that for a fixed training and inference compute budget, SpaceByte outperforms other byte-level architectures and roughly matches the performance of tokenized Transformer architectures.
- Abstract(参考訳): トークン化は、パフォーマンスが大幅に向上するため、大きな言語モデルで広く使用されている。
しかし、トークン化は性能バイアス、敵の脆弱性の増加、文字レベルのモデリング性能の低下、モデリングの複雑さの増大など、いくつかの欠点を課している。
性能を犠牲にすることなく、これらの欠点に対処するために、我々は、バイトレベルとサブワード自動回帰言語モデリングの間のパフォーマンスギャップを埋める新しいバイトレベルデコーダアーキテクチャであるSpaceByteを提案する。
SpaceByteはバイトレベルのTransformerモデルで構成されているが、レイヤの中央にさらに大きなTransformerブロックが挿入されている。
単語境界を表す空間文字のような特定のバイトの後にのみ、これらの大きなブロックを適用することで、性能が大幅に向上することを発見した。
実験の結果,固定トレーニングおよび推論計算予算では,SpaceByteは他のバイトレベルのアーキテクチャよりも優れており,トークン化トランスフォーマーアーキテクチャの性能とほぼ一致していることがわかった。
関連論文リスト
- Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。
提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文 参考訳(メタデータ) (2024-05-17T08:59:46Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Linear Attention via Orthogonal Memory [46.14195464583495]
textbfLinear textbfAttention textbfVia textbfOrthogonal memory(shortname)を提案する。
shortnameは線形複雑性を維持しながら高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-18T12:26:27Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.532359202069063]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-28T07:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。