論文の概要: SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling
- arxiv url: http://arxiv.org/abs/2508.15190v1
- Date: Thu, 21 Aug 2025 03:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.156117
- Title: SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling
- Title(参考訳): SemToken: 効率的な長期言語モデリングのためのセマンティック・アウェア・トークン化
- Authors: Dong Liu, Yanxuan Yu,
- Abstract要約: SemTokenは、トークンの冗長性を低減し、効率を向上させるセマンティック・アウェアなトークン化フレームワークである。
現代の言語モデルや注意促進手法とシームレスに統合することができる。
この結果から,意味構造は大規模言語モデルにおけるトークン化と計算を最適化する上で,有望な新たな軸を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 6.185573921868495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization plays a critical role in language modeling, yet existing approaches such as Byte-Pair Encoding (BPE) or WordPiece operate purely on frequency statistics, ignoring the underlying semantic structure of text. This leads to over-tokenization of semantically redundant spans and underutilization of contextual coherence, particularly in long-context scenarios. In this work, we propose \textbf{SemToken}, a semantic-aware tokenization framework that jointly reduces token redundancy and improves computation efficiency. SemToken first extracts contextual semantic embeddings via lightweight encoders and performs local semantic clustering to merge semantically equivalent tokens. Then, it allocates heterogeneous token granularity based on semantic density, allowing finer-grained tokenization in content-rich regions and coarser compression in repetitive or low-entropy spans. SemToken can be seamlessly integrated with modern language models and attention acceleration methods. Experiments on long-context language modeling benchmarks such as WikiText-103 and LongBench show that SemToken achieves up to $2.4\times$ reduction in token count and $1.9\times$ speedup, with negligible or no degradation in perplexity and downstream accuracy. Our findings suggest that semantic structure offers a promising new axis for optimizing tokenization and computation in large language models.
- Abstract(参考訳): トークン化は言語モデリングにおいて重要な役割を果たすが、Byte-Pair Encoding (BPE)やWordPieceのような既存のアプローチは、テキストの基本的な意味構造を無視して、純粋に周波数統計に基づいて動作する。
これは意味的に冗長なスパンの過剰なトークン化とコンテキストコヒーレンス、特に長期コンテキストシナリオの未使用につながる。
本研究では,トークンの冗長性を共同で低減し,計算効率を向上させる意味認識型トークン化フレームワークであるtextbf{SemToken}を提案する。
SemTokenはまず、軽量エンコーダを介してコンテキストセマンティック埋め込みを抽出し、セマンティックに等価なトークンをマージするローカルセマンティッククラスタリングを実行する。
そして、セマンティック密度に基づいて不均一なトークンの粒度を割り当て、コンテンツリッチな領域におけるより微細なトークン化と、繰り返しまたは低エントロピーのスパンにおける粗い圧縮を可能にする。
SemTokenは、現代の言語モデルやアテンションアクセラレーションメソッドとシームレスに統合できる。
WikiText-103やLongBenchのような長文言語モデリングのベンチマークの実験では、SemTokenはトークン数の最大2.4\times$と1.9\times$のスピードアップを達成した。
この結果から,意味構造は大規模言語モデルにおけるトークン化と計算を最適化する上で,有望な新たな軸を提供する可能性が示唆された。
関連論文リスト
- Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning [0.0]
事前訓練された言語モデル(LLM)は固定トークン化方式によって制約されることが多い。
Tokenadaptは、モデルに依存しないトークン化剤の移植方法である。
本フレームワークでは, モデルに依存しないトークン化剤の移植法であるTokenadaptと, マルチワードスーパートークンの新規プリトークン化の2つの革新を紹介した。
論文 参考訳(メタデータ) (2025-05-14T19:00:27Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。