論文の概要: STree: Speculative Tree Decoding for Hybrid State-Space Models
- arxiv url: http://arxiv.org/abs/2505.14969v1
- Date: Tue, 20 May 2025 23:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.787309
- Title: STree: Speculative Tree Decoding for Hybrid State-Space Models
- Title(参考訳): STree: ハイブリッドステートスペースモデルのための投機的ツリーデコーディング
- Authors: Yangchao Wu, Zongyue Qin, Alex Wong, Stefano Soatto,
- Abstract要約: 投機的復号化(英: Speculative decoding)は、大規模自己回帰変換(AR)モデルの効率を改善するためにハードウェアを活用する手法である。
状態空間モデル(SSM)とハイブリッドアーキテクチャでツリーベースの投機的復号化を行うための,最初のスケーラブルアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 46.17007054146938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is a technique to leverage hardware concurrency to improve the efficiency of large-scale autoregressive (AR) Transformer models by enabling multiple steps of token generation in a single forward pass. State-space models (SSMs) are already more efficient than AR Transformers, since their state summarizes all past data with no need to cache or re-process tokens in the sliding window context. However, their state can also comprise thousands of tokens; so, speculative decoding has recently been extended to SSMs. Existing approaches, however, do not leverage the tree-based verification methods, since current SSMs lack the means to compute a token tree efficiently. We propose the first scalable algorithm to perform tree-based speculative decoding in state-space models (SSMs) and hybrid architectures of SSMs and Transformer layers. We exploit the structure of accumulated state transition matrices to facilitate tree-based speculative decoding with minimal overhead to current SSM state update implementations. With the algorithm, we describe a hardware-aware implementation that improves naive application of AR Transformer tree-based speculative decoding methods to SSMs. Furthermore, we outperform vanilla speculative decoding with SSMs even with a baseline drafting model and tree structure on three different benchmarks, opening up opportunities for further speed up with SSM and hybrid model inference. Code will be released upon paper acceptance.
- Abstract(参考訳): 投機的復号化(英: Speculative decoding)とは、ハードウェアの並行性を利用して、1つのフォワードパスにおけるトークン生成の複数のステップを有効にすることにより、大規模自己回帰変換モデルの効率を改善する手法である。
状態空間モデル(SSM)は、スライディングウィンドウコンテキストでのトークンのキャッシュや再処理を必要とせず、過去のすべてのデータを要約しているため、ARトランスフォーマーよりも既に効率的である。
しかし、それらの状態は数千のトークンを構成することもできるため、投機的復号化は最近SSMにまで拡張されている。
しかし、既存のアプローチでは、現在のSSMにはトークンツリーを効率的に計算する手段がないため、ツリーベースの検証手法を活用できない。
状態空間モデル(SSM)とSSMとTransformerのハイブリッドアーキテクチャでツリーベースの投機的デコーディングを行うための,最初のスケーラブルアルゴリズムを提案する。
我々は、蓄積状態遷移行列の構造を利用して、現在のSSM状態更新実装に最小限のオーバーヘッドでツリーベースの投機的復号を容易にする。
本アルゴリズムでは,ARトランスフォーマーツリーに基づく投機的復号法をSSMに適用し,本手法を改良したハードウェア・アウェアの実装について述べる。
さらに、ベースラインのドラフトモデルとツリー構造を3つのベンチマークで組み合わせた場合であっても、SSMによるバニラ投機的デコーディングよりも優れており、SSMとハイブリッドモデル推論によるさらなる高速化の機会が開けている。
コードは受理後に公開される。
関連論文リスト
- CodeSSM: Towards State Space Models for Code Understanding [1.8838588087156363]
状態空間モデル(SSM)は、コード理解タスクのためのトランスフォーマーの潜在的な代替品である。
SSMはトランスよりも計算効率が高い。
また,SSMはよりサンプリング効率が高く,より長いコンテキストに効果的に外挿できることを示す。
論文 参考訳(メタデータ) (2025-05-02T14:27:49Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Single MCMC Chain Parallelisation on Decision Trees [0.9137554315375919]
本稿では,平均的なラップトップやパソコン上でMCMC決定ツリーチェーンを並列化する手法を提案する。
実験の結果,シリアルと並列実装が統計的に同一である場合,実行時間を18倍に向上できることがわかった。
論文 参考訳(メタデータ) (2022-07-26T07:07:51Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。