論文の概要: Batching BPE Tokenization Merges
- arxiv url: http://arxiv.org/abs/2408.04653v1
- Date: Mon, 5 Aug 2024 09:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:49:41.599850
- Title: Batching BPE Tokenization Merges
- Title(参考訳): バッチBPEトークン化マージ
- Authors: Alexander P. Morgan,
- Abstract要約: BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Byte Pair Encoding algorithm can be safely batched to merge hundreds of pairs of tokens at a time when building up a tokenizer's vocabulary. This technique combined with reducing the memory footprint of text used in vocabulary training make it feasible to train a high quality tokenizer on a basic laptop. This paper presents BatchBPE, an open-source pure Python implementation of these concepts, with the goal of making experimenting with new tokenization strategies more accessible especially in compute- and memory-constrained contexts. BatchBPE's usefulness and malleability are demonstrated through the training of several token vocabularies to explore the batch merging process and experiment with preprocessing a stop word list and ignoring the least common text chunks in a dataset. Resultant encoded lengths of texts are used as a basic evaluation metric.
- Abstract(参考訳): Byte Pair Encodingアルゴリズムは、トークンの語彙を構築する際に、数百のトークンをマージするために安全にバッチ化することができる。
この技術は、語彙学習で使われるテキストのメモリフットプリントを減らすことで、基礎的なラップトップ上で高品質なトークンをトレーニングすることが可能になる。
本稿では,これらの概念をオープンソースで実装したBatchBPEについて述べる。
BatchBPEの有用性と適合性は、いくつかのトークン語彙のトレーニングを通じて、バッチマージプロセスを探索し、停止語リストを前処理し、データセット内の最も一般的なテキストチャンクを無視する実験によって実証される。
テキストの結果として符号化された長さは、基本的な評価指標として使用される。
関連論文リスト
- SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [68.68025991850115]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Constructing a BPE Tokenization DFA [0.0]
多くの自然言語処理システムは、オープン語彙問題に対処するためにテキストのトークン化を操作している。
本稿では,一般的なバイトペア符号化技術によって生成されるトークン化を直接操作するために設計された決定論的有限オートマトンを効率的に構築するためのアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2024-05-13T11:59:24Z) - A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system [10.70500939394669]
Byte Pair Piece(BPE)やWordPieceのようなトークン化アルゴリズムは、音声認識システムの全体的なトレーニングプロセスで使用されるトークンを特定するのに人気がある。
LibriSpeech 100 時間セットの実験を通して,トークンの数を慎重に選択することで,エンドツーエンドの ASR システムの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:21Z) - Scaffold-BPE: Enhancing Byte Pair Encoding with Simple and Effective Scaffold Token Removal [25.406520591282366]
そこで本研究では,パラメータフリー,計算軽度,実装が容易なオリジナルのBPEによる動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングタスクと機械翻訳タスクにわたる広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Tokenization Is More Than Compression [15.689084780238597]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野から来ており、BPEはテキストを比較的少数のトークンに凝縮する能力に由来することが示唆されている。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。