論文の概要: LoPT: Lossless Parallel Tokenization Acceleration for Long Context Inference of Large Language Model
- arxiv url: http://arxiv.org/abs/2511.04952v1
- Date: Fri, 07 Nov 2025 03:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.663259
- Title: LoPT: Lossless Parallel Tokenization Acceleration for Long Context Inference of Large Language Model
- Title(参考訳): LoPT:Long Context Inference of Large Language Modelのためのロスレス並列トークン化高速化
- Authors: Wei Shao, Lingchao Zheng, Pengyu Wang, Peizhen Zheng, Jun Li, Yuwei Fan,
- Abstract要約: Lossless Parallel Tokenization (LoPT)は、標準的なシーケンシャルトークン化と同じ出力を保証する新しいLosless Parallel Tokenizationフレームワークである。
提案手法では,文字配置に基づくマッチングと動的チャンク長調整を用いて,トークン化されたセグメントの整合とマージを正確に行う。
- 参考スコア(独自算出の注目度): 9.978777777704083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long context inference scenarios have become increasingly important for large language models, yet they introduce significant computational latency. While prior research has optimized long-sequence inference through operators, model architectures, and system frameworks, tokenization remains an overlooked bottleneck. Existing parallel tokenization methods accelerate processing through text segmentation and multi-process tokenization, but they suffer from inconsistent results due to boundary artifacts that occur after merging. To address this, we propose LoPT, a novel Lossless Parallel Tokenization framework that ensures output identical to standard sequential tokenization. Our approach employs character-position-based matching and dynamic chunk length adjustment to align and merge tokenized segments accurately. Extensive experiments across diverse long-text datasets demonstrate that LoPT achieves significant speedup while guaranteeing lossless tokenization. We also provide theoretical proof of consistency and comprehensive analytical studies to validate the robustness of our method.
- Abstract(参考訳): 長期のコンテキスト推論シナリオは、大規模言語モデルではますます重要になってきていますが、大きな計算遅延が発生しています。
以前の研究では、オペレータやモデルアーキテクチャ、システムフレームワークを通じて、長いシーケンス推論を最適化していましたが、トークン化は見過ごされがちなボトルネックのままです。
既存の並列トークン化手法は、テキストセグメンテーションとマルチプロセストークン化によって処理を加速するが、マージ後に発生する境界アーティファクトによって、一貫性のない結果に悩まされる。
そこで我々はLosless Parallel TokenizationフレームワークであるLoPTを提案する。
提案手法では,文字配置に基づくマッチングと動的チャンク長調整を用いて,トークン化されたセグメントの整合とマージを正確に行う。
さまざまな長文データセットにわたる大規模な実験により、LOTはロスレストークン化を保証しながら、大幅なスピードアップを実現している。
また, 本手法のロバスト性を検証するために, 整合性の理論的証明と総合解析的研究を行った。
関連論文リスト
- READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Path-Consistency with Prefix Enhancement for Efficient Inference in LLMs [3.6696973040141034]
path-consistencyは推論遅延を最大40.5%改善し、タスク間のタスク精度を維持している。
実験の結果,経路整合性は,タスク間のタスク精度を維持しつつ,最大40.5%の推論遅延を改善することが示された。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。