Fugu-MT 論文翻訳(概要): STree: Speculative Tree Decoding for Hybrid State-Space Models

論文の概要: STree: Speculative Tree Decoding for Hybrid State-Space Models

arxiv url: http://arxiv.org/abs/2505.14969v1
Date: Tue, 20 May 2025 23:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.787309
Title: STree: Speculative Tree Decoding for Hybrid State-Space Models
Title（参考訳）: STree: ハイブリッドステートスペースモデルのための投機的ツリーデコーディング
Authors: Yangchao Wu, Zongyue Qin, Alex Wong, Stefano Soatto,
Abstract要約: 投機的復号化(英: Speculative decoding)は、大規模自己回帰変換(AR)モデルの効率を改善するためにハードウェアを活用する手法である。状態空間モデル(SSM)とハイブリッドアーキテクチャでツリーベースの投機的復号化を行うための,最初のスケーラブルアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 46.17007054146938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding is a technique to leverage hardware concurrency to improve the efficiency of large-scale autoregressive (AR) Transformer models by enabling multiple steps of token generation in a single forward pass. State-space models (SSMs) are already more efficient than AR Transformers, since their state summarizes all past data with no need to cache or re-process tokens in the sliding window context. However, their state can also comprise thousands of tokens; so, speculative decoding has recently been extended to SSMs. Existing approaches, however, do not leverage the tree-based verification methods, since current SSMs lack the means to compute a token tree efficiently. We propose the first scalable algorithm to perform tree-based speculative decoding in state-space models (SSMs) and hybrid architectures of SSMs and Transformer layers. We exploit the structure of accumulated state transition matrices to facilitate tree-based speculative decoding with minimal overhead to current SSM state update implementations. With the algorithm, we describe a hardware-aware implementation that improves naive application of AR Transformer tree-based speculative decoding methods to SSMs. Furthermore, we outperform vanilla speculative decoding with SSMs even with a baseline drafting model and tree structure on three different benchmarks, opening up opportunities for further speed up with SSM and hybrid model inference. Code will be released upon paper acceptance.
Abstract（参考訳）: 投機的復号化(英: Speculative decoding)とは、ハードウェアの並行性を利用して、1つのフォワードパスにおけるトークン生成の複数のステップを有効にすることにより、大規模自己回帰変換モデルの効率を改善する手法である。状態空間モデル(SSM)は、スライディングウィンドウコンテキストでのトークンのキャッシュや再処理を必要とせず、過去のすべてのデータを要約しているため、ARトランスフォーマーよりも既に効率的である。しかし、それらの状態は数千のトークンを構成することもできるため、投機的復号化は最近SSMにまで拡張されている。しかし、既存のアプローチでは、現在のSSMにはトークンツリーを効率的に計算する手段がないため、ツリーベースの検証手法を活用できない。状態空間モデル(SSM)とSSMとTransformerのハイブリッドアーキテクチャでツリーベースの投機的デコーディングを行うための,最初のスケーラブルアルゴリズムを提案する。我々は、蓄積状態遷移行列の構造を利用して、現在のSSM状態更新実装に最小限のオーバーヘッドでツリーベースの投機的復号を容易にする。本アルゴリズムでは,ARトランスフォーマーツリーに基づく投機的復号法をSSMに適用し,本手法を改良したハードウェア・アウェアの実装について述べる。さらに、ベースラインのドラフトモデルとツリー構造を3つのベンチマークで組み合わせた場合であっても、SSMによるバニラ投機的デコーディングよりも優れており、SSMとハイブリッドモデル推論によるさらなる高速化の機会が開けている。コードは受理後に公開される。

関連論文リスト

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models [0.8474310104568011]
構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。 QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
論文参考訳（メタデータ） (2025-07-08T15:19:14Z)
Seamlessly Integrating Tree-Based Positional Embeddings into Transformer Models for Source Code Representation [0.0]
抽象構文木(AST)由来の階層的関係を明示的にエンコードする新しい木に基づく位置埋め込み手法を提案する。これらの階層的な埋め込みはトランスフォーマーアーキテクチャに統合され、特にCodeBERTaモデルを拡張している。実験の結果,Tree-Enhanced CodeBERTaは損失,精度,F1スコア,精度,リコールの点で,一貫してベースラインモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2025-07-05T11:07:47Z)
SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot [8.080568103779893]
Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチする。既存のワンショットプルーニング手法はアテンションブロックに適合し、時間共有および離散化された状態遷移行列を考慮できない。 SparseSSMは、古典的最適な脳外科医(OBS)フレームワークをステートスペースアーキテクチャに拡張した最初のトレーニングフリープルーニングフレームワークである。
論文参考訳（メタデータ） (2025-06-11T11:14:57Z)
Sparsified State-Space Models are Efficient Highway Networks [52.29954079160793]
ステートスペースモデル(SSM)は、高価な自己アテンションを線形リカレンスに置き換えることでトランスフォーマーに代わるものを提供する。本稿では,計算予算内でSSMをスパース化して拡張する,単純かつ効果的な手法を提案する。 Simbaはトークンプルーニングに基づくSSMの階層的スペーシフィケーション手法である。
論文参考訳（メタデータ） (2025-05-27T04:07:23Z)
CodeSSM: Towards State Space Models for Code Understanding [1.8838588087156363]
状態空間モデル(SSM)は、コード理解タスクのためのトランスフォーマーの潜在的な代替品である。 SSMはトランスよりも計算効率が高い。また,SSMはよりサンプリング効率が高く,より長いコンテキストに効果的に外挿できることを示す。
論文参考訳（メタデータ） (2025-05-02T14:27:49Z)
Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文参考訳（メタデータ） (2024-08-01T02:49:58Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。 DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文参考訳（メタデータ） (2023-06-01T14:46:34Z)
Single MCMC Chain Parallelisation on Decision Trees [0.9137554315375919]
本稿では,平均的なラップトップやパソコン上でMCMC決定ツリーチェーンを並列化する手法を提案する。実験の結果,シリアルと並列実装が統計的に同一である場合,実行時間を18倍に向上できることがわかった。
論文参考訳（メタデータ） (2022-07-26T07:07:51Z)
SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文参考訳（メタデータ） (2020-12-29T11:37:43Z)
Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文参考訳（メタデータ） (2020-02-19T08:17:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。