論文の概要: Which Pieces Does Unigram Tokenization Really Need?
- arxiv url: http://arxiv.org/abs/2512.12641v1
- Date: Sun, 14 Dec 2025 11:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.357219
- Title: Which Pieces Does Unigram Tokenization Really Need?
- Title(参考訳): ユニグラムのトークン化にはどれが必要か?
- Authors: Sander Land, Yuval Pinter,
- Abstract要約: Unigramトークン化アルゴリズムはByte-Pairのgreedyアダプタに代わる確率的な代替手段を提供する。
実装とパラメータ選択の明確なガイドを提供することで、理論と実践のギャップを埋める。
- 参考スコア(独自算出の注目度): 6.722891561991933
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Unigram tokenization algorithm offers a probabilistic alternative to the greedy heuristics of Byte-Pair Encoding. Despite its theoretical elegance, its implementation in practice is complex, limiting its adoption to the SentencePiece package and adapters thereof. We bridge this gap between theory and practice by providing a clear guide to implementation and parameter choices. We also identify a simpler algorithm that accepts slightly higher training loss in exchange for improved compression.
- Abstract(参考訳): Unigramトークン化アルゴリズムは、Byte-Pairエンコーディングの欲求的ヒューリスティックスの確率的代替を提供する。
理論上の優雅さにもかかわらず、実際の実装は複雑であり、SentencePieceパッケージとそのアダプタに限られている。
実装とパラメータ選択の明確なガイドを提供することで、理論と実践のギャップを埋める。
また、圧縮の改善と引き換えに、トレーニング損失をわずかに高める単純なアルゴリズムも同定する。
関連論文リスト
- Single-pass Adaptive Image Tokenization for Minimum Program Search [75.59409288259151]
本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。
KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。
近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。
ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文 参考訳(メタデータ) (2025-05-19T18:00:00Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [31.932323809073477]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Bridging Classical and Quantum String Matching: A Computational Reformulation of Bit-Parallelism [0.0]
本稿では,ビット並列文字列マッチングアルゴリズムを量子フレームワークに変換する新しい経路を提案する。
ビット並列モデルに量子探索を埋め込むことにより、文字列マッチングの時間的複雑さを低減する。
また,Groverの探索による2次高速化を実現するため,性能の向上も図っている。
論文 参考訳(メタデータ) (2025-03-07T17:24:00Z) - A Partition Cover Approach to Tokenization [24.595558878756787]
トークン化とは、文字列を一定の語彙サイズのトークンに符号化するプロセスである。
Byte-Pair corpora (BPE) は、トークン化問題を圧縮問題として定式化し、マージのシーケンスを実行することでそれに取り組む。
GreedTokは圧縮においてBPEやUnigramよりも優れており、GreedWMCに匹敵するカバースコアが得られることを示す。
論文 参考訳(メタデータ) (2025-01-08T17:07:07Z) - Partition and Code: learning how to compress graphs [50.29024357495154]
まず、分割アルゴリズムがグラフを基本構造に分解し、これらを確率分布を学習する小さな辞書の要素にマッピングし、エントロピーエンコーダが表現をビットに変換する。
提案アルゴリズムは,非パラメトリックおよびパラメトリックグラフ圧縮器の異なるファミリーに対して,多種多様な実世界のネットワーク上で定量的に評価し,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-07-05T11:41:16Z) - Learned transform compression with optimized entropy encoding [72.20409648915398]
学習した変換圧縮の問題を検討し、離散符号上の変換と確率分布の両方を学習する。
勾配のバックプロパゲーションを可能にするために量子化演算をソフト緩和し, 潜在符号のベクトル量子化を(スカラーではなく)採用した。
論文 参考訳(メタデータ) (2021-04-07T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。