論文の概要: BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training
- arxiv url: http://arxiv.org/abs/2409.04599v1
- Date: Fri, 6 Sep 2024 20:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:42:30.198922
- Title: BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training
- Title(参考訳): BPEがピカピカに: トケナイザー訓練中の語彙の効率的なリファインメント
- Authors: Pavel Chizhov, Catherine Arnett, Elizaveta Korotkova, Ivan P. Yamshchikov,
- Abstract要約: Picky BPE(ピッキー・BPE)は、トークンーザのトレーニング中に語彙の洗練を行う改良型BPEアルゴリズムである。
本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。
- 参考スコア(独自算出の注目度): 8.012203293561196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models can largely benefit from efficient tokenization. However, they still mostly utilize the classical BPE algorithm, a simple and reliable method. This has been shown to cause such issues as under-trained tokens and sub-optimal compression that may affect the downstream performance. We introduce Picky BPE, a modified BPE algorithm that carries out vocabulary refinement during tokenizer training. Our method improves vocabulary efficiency, eliminates under-trained tokens, and does not compromise text compression. Our experiments show that our method does not reduce the downstream performance, and in several cases improves it.
- Abstract(参考訳): 言語モデルは、効率的なトークン化の恩恵を受けることができる。
しかし、それらは基本的には単純で信頼性の高い手法である古典的BPEアルゴリズムを利用している。
これは、ダウンストリームのパフォーマンスに影響を及ぼす可能性のある、未学習のトークンや準最適圧縮などの問題を引き起こすことが示されている。
トークン化学習中に語彙改善を行う改良型BPEアルゴリズムであるPicky BPEを紹介する。
本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。
実験の結果,ダウンストリーム性能は低下せず,いくつかのケースで改善していることがわかった。
関連論文リスト
- Scaffold-BPE: Enhancing Byte Pair Encoding with Simple and Effective Scaffold Token Removal [25.406520591282366]
そこで本研究では,パラメータフリー,計算軽度,実装が容易なオリジナルのBPEによる動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングタスクと機械翻訳タスクにわたる広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Tokenization Is More Than Compression [15.689084780238597]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野から来ており、BPEはテキストを比較的少数のトークンに凝縮する能力に由来することが示唆されている。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in
Neural Machine Translation? [17.300004156754966]
我々は,単語タイプ,セグメント数,クロスアテンション,セグメントn-gramの頻度に基づいて,OOV単語の翻訳品質を分析する。
実験の結果,重みを通したOOV単語の翻訳には注意深いBPE設定が有用であることがわかったが,OOV単語のかなりの割合は誤って翻訳されている。
論文 参考訳(メタデータ) (2022-08-10T08:57:13Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。