論文の概要: ByteSpan: Information-Driven Subword Tokenisation
- arxiv url: http://arxiv.org/abs/2506.18639v1
- Date: Mon, 23 Jun 2025 13:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.002346
- Title: ByteSpan: Information-Driven Subword Tokenisation
- Title(参考訳): ByteSpan: 情報駆動型サブワードトークン化
- Authors: Zébulon Goriely, Suchir Salhan, Pietro Lesci, Julius Cheng, Paula Buttery,
- Abstract要約: トレーニング中に外部バイトレベルLMを用いて、連続した予測可能なバイト列を識別する情報駆動型サブワードトークンであるByteSpanを提案する。
実験により、ByteSpanは英語のBPEよりも高い形態的アライメントスコアを持つ効率的な語彙が得られることが示された。
- 参考スコア(独自算出の注目度): 2.4723044036055306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent dynamic tokenisation methods operate directly on bytes and pool their latent representations into patches. This bears similarities to computational models of word segmentation that determine lexical boundaries using spikes in an autoregressive model's prediction error. Inspired by this connection, we explore whether grouping predictable bytes - rather than pooling their representations - can yield a useful fixed subword vocabulary. We propose a new information-driven subword tokeniser, ByteSpan, that uses an external byte-level LM during training to identify contiguous predictable byte sequences and group them into subwords. Experiments show that ByteSpan yields efficient vocabularies with higher morphological alignment scores than BPE for English. Multilingual experiments show similar compression and R\'enyi efficiency for 25 languages.
- Abstract(参考訳): 最近の動的トークン化手法はバイトを直接操作し、潜在表現をパッチにまとめる。
これは、自己回帰モデルの予測誤差のスパイクを用いて語彙境界を決定する単語セグメンテーションの計算モデルに類似している。
この接続に触発されて、予測可能なバイト(表現をプールするのではなく、予測可能なバイト)をグループ化することで、有用な固定サブワード語彙が得られるかどうかを探索する。
学習中に外部バイトレベルLMを使用して、連続した予測可能なバイト列を識別し、それらをサブワードにグループ化する情報駆動型サブワードトークンであるByteSpanを提案する。
実験により、ByteSpanは英語のBPEよりも高い形態的アライメントスコアを持つ効率的な語彙が得られることが示された。
マルチ言語実験では、25言語に対して同様の圧縮とR'enyi効率を示す。
関連論文リスト
- MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。