論文の概要: TIDE: Token-Informed Depth Execution for Per-Token Early Exit in LLM Inference
- arxiv url: http://arxiv.org/abs/2603.21365v1
- Date: Sun, 22 Mar 2026 18:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.380166
- Title: TIDE: Token-Informed Depth Execution for Per-Token Early Exit in LLM Inference
- Title(参考訳): TIDE:LLM推論におけるトークンごとの早期実行のためのトークンインフォームド深さ実行
- Authors: Jaber Jaber, Osama Jaber,
- Abstract要約: TIDEは、定期的なチェックポイント層とルータで学習した小さなレイヤを推論時にアタッチするポストトレーニングシステムであり、トークン毎に隠れた状態が収束した最初期のレイヤを選択する。
DeepSeek R1 Distill 8BのNVIDIA A100では、TIDEは100%プリフィルの終了率(11層でトークンの5%、31層で残るもの)を達成し、プリフィルのレイテンシを7.2%削減し、シングルバッチスループットを6.6%向上させた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models run every token through every layer, regardless of difficulty. We present TIDE, a post-training system that attaches tiny learned routers at periodic checkpoint layers and, at inference time, selects the earliest layer whose hidden state has converged for each token. TIDE requires no model retraining, works with any HuggingFace causal LM, auto-detects GPU architecture, and supports float32, float16, and bfloat16 through fused CUDA kernels. On an NVIDIA A100 with DeepSeek R1 Distill 8B, TIDE achieves 100% prefill exit rate (5% of tokens exit at layer 11, the remaining at layer 31), reduces prefill latency by 7.2%, and increases single-batch throughput by 6.6%. During autoregressive decoding, 98-99% of tokens exit early while the model correctly solves a multi-step math problem with 95 unique output tokens. On Qwen3 8B (36 layers), throughput improves by 8.1% at batch size 8. Calibration on 2,000 WikiText samples takes under 3 minutes and produces a ~4 MB router checkpoint. The system comprises 1,308 lines of Python and 1,081 lines of CUDA/C++ with 74 passing tests. Code: https://github.com/RightNow-AI/TIDE
- Abstract(参考訳): 大規模言語モデルは難易度に関わらず、すべての層を通してすべてのトークンを実行する。
我々は,定期的なチェックポイント層に小さな学習ルータをアタッチして,各トークンに隠れ状態が収束した最初期の層を選択するポストトレーニングシステムTIDEを提案する。
TIDEはモデルの再トレーニングを必要とせず、HuggingFace因果LM、GPUアーキテクチャの自動検出、CUDAカーネルの融合によるfloat32、float16をサポートする。
DeepSeek R1 Distill 8BのNVIDIA A100では、100%プリフィルの終了率(11層でトークンの5%、31層で残り)を達成し、プリフィルのレイテンシを7.2%削減し、シングルバッチスループットを6.6%向上させた。
自己回帰復号において、98-99%のトークンは早期に終了し、モデルは95個のユニークな出力トークンを持つ多段階数学問題を正しく解いた。
Qwen3 8B (36層)では、バッチサイズ8でスループットが8.1%向上した。
2,000のWikiTextサンプルの校正は3分以内で、約4MBのルータチェックポイントを生成する。
システムは1,308行のPythonと1,081行のCUDA/C++と74回のパステストで構成される。
コード:https://github.com/RightNow-AI/TIDE
関連論文リスト
- A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA [10.452946241750562]
Gated DeltaNet(GDN)は、成長するKVキャッシュを固定サイズのリカレントステートに置き換える線形アテンションメカニズムである。
このボトルネックはアルゴリズムではなくアーキテクチャであることが示され、全てのサブクワッド列モデルはデコード時に 1 FLOP/B 未満の演算強度を示す。
オンチップBRAMにおいて,フル2MBのリカレント状態を持続的に保持することにより,このボトルネックを解消するFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2026-03-06T06:03:38Z) - Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T00:00:55Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - A Simple Linear Patch Revives Layer-Pruned Large Language Models [58.056251480151104]
大規模言語モデル(LLM)の圧縮技術として広く使われているレイヤプルーニング(Layer pruning)が登場している。
textscLinearPatchはプルーニングインターフェイスで2つの操作を1つの行列に乗算する。
パッチはメモリ効率の悪いオフライン蒸留によって5Kの未ラベルのサンプルでさらに洗練され、1つのGPUでわずか30分で95.16%に保留できる。
論文 参考訳(メタデータ) (2025-05-30T15:06:08Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。