論文の概要: Component-Aware Self-Speculative Decoding in Hybrid Language Models
- arxiv url: http://arxiv.org/abs/2605.01106v1
- Date: Fri, 01 May 2026 21:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.587044
- Title: Component-Aware Self-Speculative Decoding in Hybrid Language Models
- Title(参考訳): ハイブリッド言語モデルにおける成分認識型自己投機的復号法
- Authors: Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó,
- Abstract要約: 投機的復号化は、高速モデルで候補トークンを起草することで自己回帰推論を加速する。
本稿では,SSM/リニアアテンションサブグラフをゼロコスト内部ドラフトとして分離する,コンポーネント認識型自己投機的デコーディングを提案する。
汎用的なLayerSkipはコンポーネント認識戦略よりも12倍高い受け入れ率が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates autoregressive inference by drafting candidate tokens with a fast model and verifying them in parallel with the target. Self-speculative methods avoid the need for an external drafter but have been studied exclusively in homogeneous Transformer architectures. We introduce component-aware self-speculative decoding, the first method to exploit the internal architectural heterogeneity of hybrid language models, isolating the SSM/linear-attention subgraph as a zero-cost internal draft. We evaluate this on two architecturally distinct hybrid families: Falcon-H1 (parallel: Mamba-2 + attention per layer) and Qwen3.5 (sequential: interleaved linear and attention layers), with a pure Transformer control (Qwen2.5). Parallel hybrids achieve acceptance rates of alpha = 0.68 at draft length k=2 under greedy decoding, while sequential hybrids yield only alpha = 0.038 -- an 18x gap attributable to how each architecture integrates its components. The property is scale-invariant: Falcon-H1 at 3B reproduces the rates observed at 0.5B. We further show that perplexity degradation from a companion ablation study predicts speculative viability without running speculative decoding: a 3.15x ratio (Falcon) maps to alpha = 0.37 at k=4, while 81.96x (Qwen) maps to alpha = 0.019. For sequential hybrids, generic LayerSkip achieves 12x higher acceptance rates than the component-aware strategy. The composition pattern of hybrid models -- not merely the presence of alternative components -- determines whether component-level self-speculation is viable.
- Abstract(参考訳): 投機的復号化は、候補トークンを高速なモデルでドラフトし、ターゲットと並列に検証することで自己回帰推論を加速する。
自己投機的手法は外部の起草者を必要としないが、同種トランスフォーマーアーキテクチャでのみ研究されている。
本稿では,SSM/線形アテンション部分グラフをゼロコスト内部ドラフトとして分離し,ハイブリッド言語モデルの内部構造的不均一性を活用するための最初の手法である,コンポーネント認識型自己投機的デコーディングを紹介する。
Falcon-H1 (パラレル: Mamba-2 + attention per layer) と Qwen3.5 (シークエンシャル: インターリーブドリニアおよびアテンション層) の2つのアーキテクチャ的に異なるハイブリッドファミリーに対して、純粋なトランスフォーマー制御 (Qwen2.5) を用いてこれを評価した。
パラレルハイブリッドは、greedyデコーディングの下で、ドラフト長 k=2 で α = 0.68 の受け入れ率を達成する一方、シーケンシャルハイブリッドは α = 0.038 しか生成しない。
ファルコンH1は3Bで0.5Bで観測される速度を再現する。
さらに、共役アブレーションによるパープレキシティ劣化は、投機的復号を行わずに投機的生存性を予測し、k=4で3.15x比(Falcon)がα = 0.37、k=4で81.96x(Qwen)がα = 0.019となることを示した。
シーケンシャルハイブリッドでは、一般的なLayerSkipはコンポーネント認識戦略よりも12倍高い受け入れ率を達成する。
代替コンポーネントの存在だけでなく、ハイブリッドモデルの合成パターンは、コンポーネントレベルの自己定義が可能であるかどうかを決定する。
関連論文リスト
- Where Should LoRA Go? Component-Type Placement in Hybrid Language Models [0.0]
2つのハイブリッドアーキテクチャにまたがるコンポーネント型LoRA配置について検討する。
注意経路は、トレーニング可能なパラメータを5~10倍少なくすることで、フルモデル適応を一貫して上回ります。
論文 参考訳(メタデータ) (2026-04-24T00:20:29Z) - Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures [0.0]
2つのサブ-1Bハイブリッドモデルに適用した機能的コンポーネントアブレーションフレームワークを提案する。
両方のコンポーネントタイプが必須であり、どちらもバイパスされていないことが分かりました。
これらの結果は、ハイブリッドモデル圧縮、アーキテクチャ設計、フォールトトレラントデプロイメントのための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-03-23T18:41:49Z) - Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM [0.0]
MLX-LMフレームワークをUniversal Assisted Generation (UAG)で拡張し、Apple Silicon上でクロストケナイザの投機的復号を可能にする。
ポーランド語の3つのデータセット(Wikipedia、pl_alpaca、synthetic)の実験では、2, 4, 6のドラフト長kを用いて、ナイーブとコンテキスト対応のトークン翻訳を比較している。
論文 参考訳(メタデータ) (2026-03-22T19:07:41Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - PanFoMa: A Lightweight Foundation Model and Benchmark for Pan-Cancer [54.958921946378304]
トランスフォーマーと状態空間モデルの強みを組み合わせた軽量ハイブリッドニューラルネットワークであるPanFoMaを紹介する。
PanFoMaはフロントエンドのローカルコンテキストエンコーダと共有自己認識層から構成され、複雑で秩序に依存しない遺伝子相互作用をキャプチャする。
また,350万以上の高品質な細胞を含む大規模パンキャンサー単細胞ベンチマークPanFoMaBenchを構築した。
論文 参考訳(メタデータ) (2025-12-02T08:31:31Z) - A Systematic Analysis of Hybrid Linear Attention [11.722015123070957]
リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
論文 参考訳(メタデータ) (2025-07-08T23:54:11Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。