論文の概要: Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models
- arxiv url: http://arxiv.org/abs/2508.06621v1
- Date: Fri, 08 Aug 2025 18:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.473657
- Title: Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models
- Title(参考訳): Train it and Forget it:Merge Listは言語モデルにおけるBPE推論に不要である
- Authors: Tomohiro Sawada, Kartik Goyal,
- Abstract要約: 標準バイトペア。
(BPE)トークン化は、学習したトークン語彙と詳細なマージリストとのペアリングによってテキストを圧縮する。
近年の研究では、このマージリストが、言語モデルのトレーニングデータに関する情報を抽出する潜在的攻撃面を公開することが示されている。
- 参考スコア(独自算出の注目度): 5.505621044670219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Byte-Pair Encoding (BPE) tokenization compresses text by pairing a learned token vocabulary with a detailed merge list. Recent work has shown that this merge list exposes a potential attack surface for extracting information about language model's training data. In this paper, we explore the downstream impact of BPE inference algorithms that do not rely on this merge list at all, and hence differ from the encoding process during BPE training. To address this question, we investigate two broad classes of BPE inference schemes that differ from BPE application during training: a) targeted deviation from merge-lists including random merge orders, and various corruptions of merge list involving deletion/truncation, and b) non-targeted BPE inference algorithms that do not depend on the merge list but focus on compressing the text either greedily or exactly. Extensive experiments across diverse language modeling tasks like accuracy-based QA benchmarks, machine translation, and open-ended generation reveal that while targeted deviation from the merge lists exhibits significant degradation in language model performance, the non-targeted merge-list-free inference algorithms result in minimal impact on downstream performance that is often much smaller than expected. These findings pave way for simpler and potentially more privacy-preserving tokenization schemes that do not catastrophically compromise model performance.
- Abstract(参考訳): BPE(Standard Byte-Pair Encoding)トークン化は、学習したトークン語彙と詳細なマージリストをペアリングすることで、テキストを圧縮する。
近年の研究では、このマージリストが、言語モデルのトレーニングデータに関する情報を抽出する潜在的攻撃面を公開することが示されている。
本稿では,このマージリストに依存しないBPE推論アルゴリズムの下流への影響について検討する。
この問題に対処するために、トレーニング中のBPEアプリケーションとは異なる2種類のBPE推論スキームについて検討する。
a) ランダムなマージ注文を含むマージリストからの目標逸脱及び削除・停止を含むマージリストの様々な腐敗
b) マージリストに依存しない非ターゲットのBPE推論アルゴリズムであって、テキストを優雅にまたは正確に圧縮することに焦点を当てているもの。
精度ベースのQAベンチマーク、機械翻訳、オープンエンドジェネレーションといった多種多様な言語モデリングタスクに対する広範な実験により、マージリストからの目標偏差は言語モデルのパフォーマンスの大幅な低下を示す一方で、非ターゲットのマージリストフリー推論アルゴリズムは、予想よりもはるかに小さなダウンストリームパフォーマンスに最小限の影響をもたらすことが明らかになった。
これらの発見は、モデルパフォーマンスを破滅的に損なうことのない、よりシンプルで、よりプライバシー保護のトークン化スキームの道を開いた。
関連論文リスト
- Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [62.35048154917945]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。