論文の概要: Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators
- arxiv url: http://arxiv.org/abs/2602.22647v1
- Date: Thu, 26 Feb 2026 06:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.547464
- Title: Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators
- Title(参考訳): ベクトル化: 加速器上でのLCMに基づく生成検索のための効率的な制約付き復号法
- Authors: Zhengyang Su, Isay Katsman, Yueqi Wang, Ruining He, Lukasz Heldt, Raghunandan Keshavan, Shao-Chuan Wang, Xinyang Yi, Mingyan Gao, Onkar Dalal, Lichan Hong, Ed Chi, Ningren Han,
- Abstract要約: STATICは、ハードウェアアクセラレータ上で生成的検索を行うための、効率的でスケーラブルな制約付き復号法である。
我々はSTATICを数十億のユーザを対象とした大規模産業用ビデオレコメンデーションプラットフォームにデプロイする。
- 参考スコア(独自算出の注目度): 7.020725160596732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval has emerged as a powerful paradigm for LLM-based recommendation. However, industrial recommender systems often benefit from restricting the output space to a constrained subset of items based on business logic (e.g. enforcing content freshness or product category), which standard autoregressive decoding cannot natively support. Moreover, existing constrained decoding methods that make use of prefix trees (Tries) incur severe latency penalties on hardware accelerators (TPUs/GPUs). In this work, we introduce STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding), an efficient and scalable constrained decoding technique designed specifically for high-throughput LLM-based generative retrieval on TPUs/GPUs. By flattening the prefix tree into a static Compressed Sparse Row (CSR) matrix, we transform irregular tree traversals into fully vectorized sparse matrix operations, unlocking massive efficiency gains on hardware accelerators. We deploy STATIC on a large-scale industrial video recommendation platform serving billions of users. STATIC produces significant product metric impact with minimal latency overhead (0.033 ms per step and 0.25% of inference time), achieving a 948x speedup over a CPU trie implementation and a 47-1033x speedup over a hardware-accelerated binary-search baseline. Furthermore, the runtime overhead of STATIC remains extremely low across a wide range of practical configurations. To the best of our knowledge, STATIC enables the first production-scale deployment of strictly constrained generative retrieval. In addition, evaluation on academic benchmarks demonstrates that STATIC can considerably improve cold-start performance for generative retrieval. Our code is available at https://github.com/youtube/static-constraint-decoding.
- Abstract(参考訳): LLMに基づく推薦のための強力なパラダイムとして、ジェネレーティブ検索が登場している。
しかし、産業レコメンデータシステムは、標準的な自己回帰デコーディングがネイティブにサポートできないようなビジネスロジック(例えば、コンテンツ更新性や製品カテゴリを強制する)に基づいて、出力空間を制約されたサブセットに制限することの恩恵を受けることが多い。
さらに、プレフィックスツリー(Tries)を利用する既存の制約付き復号法は、ハードウェアアクセラレータ(TPU/GPU)に厳しいレイテンシのペナルティをもたらす。
本研究では,STATIC(Sparse transition Matrix-Accelerated Trie Index for Constrained Decoding)を紹介する。
プレフィックスツリーを静的圧縮スパースロー(CSR)行列に平坦化することにより、不規則木トラバーサルを完全にベクトル化されたスパース行列演算に変換し、ハードウェアアクセラレータの大幅な効率向上を解放する。
我々はSTATICを数十億のユーザを対象とした大規模産業用ビデオレコメンデーションプラットフォームにデプロイする。
STATICは、レイテンシのオーバーヘッドを最小限に抑え(ステップ当たり0.033ms、推論時間0.25%)、CPUトリエ実装上で948倍のスピードアップ、ハードウェアアクセラレーションされたバイナリ検索ベースライン上で47-1033倍のスピードアップを実現している。
さらに、STATICのランタイムオーバーヘッドは、幅広い実用的な構成で非常に低いままである。
我々の知る限り、STATICは厳密な制約付き生成検索を初めて生産規模で展開することを可能にする。
さらに,学術ベンチマークによる評価の結果,STATICは生成検索におけるコールドスタート性能を著しく向上させることができることが示された。
私たちのコードはhttps://github.com/youtube/static-constraint-decoding.comで利用可能です。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Fast and Compact Tsetlin Machine Inference on CPUs Using Instruction-Level Optimization [0.4499833362998488]
Tsetlin Machine (TM) はCPUなどのリソース制限されたデバイスに高速な推論を提供する。
命令レベルビットワイド演算を利用したTMの効率的なソフトウェア実装を提案する。
本稿では,TMのand-based節評価を利用して不要な計算を回避する早期終了機構を提案する。
論文 参考訳(メタデータ) (2025-10-17T13:44:20Z) - TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs [9.646882213709814]
TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
論文 参考訳(メタデータ) (2025-10-03T05:37:51Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators [3.043665249713003]
本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
論文 参考訳(メタデータ) (2022-06-30T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。