論文の概要: Retrieval-Aware Distillation for Transformer-SSM Hybrids
- arxiv url: http://arxiv.org/abs/2602.11374v1
- Date: Wed, 11 Feb 2026 21:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.542445
- Title: Retrieval-Aware Distillation for Transformer-SSM Hybrids
- Title(参考訳): 変圧器-SSMハイブリッドの検索・認識蒸留
- Authors: Aviv Bick, Eric P. Xing, Albert Gu,
- Abstract要約: 状態空間モデル(SSM)は効率的なシーケンスモデリングを提供するが、文脈内検索を必要とするベンチマークではTransformerに遅れがある。
本稿では, 事前学習したトランスフォーマーを, これらの検索クリティカルヘッドのみを保存して, ハイブリッド学習者に変換する「検索対応蒸留*」を提案する。
本研究は,* 2% の注意力の保持が,検索重度タスクにおける教師のパフォーマンスの95%以上を回復させることを示す。
- 参考スコア(独自算出の注目度): 56.85859614817908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) offer efficient sequence modeling but lag behind Transformers on benchmarks that require in-context retrieval. Prior work links this gap to a small set of attention heads, termed Gather-and-Aggregate (G&A), which SSMs struggle to reproduce. We propose *retrieval-aware distillation*, which converts a pretrained Transformer into a hybrid student by preserving only these retrieval-critical heads and distilling the rest into recurrent heads. We identify the essential heads via ablation on a synthetic retrieval task, producing a hybrid with sparse, non-uniform attention placement. We show that preserving **just 2% of attention heads recovers over 95% of teacher performance on retrieval-heavy tasks** (10 heads in a 1B model), requiring far fewer heads than hybrids that retain at least 25%. We further find that large recurrent states often compensate for missing retrieval: once retrieval is handled by these heads, the SSM backbone can be simplified with limited loss, even with an $8\times$ reduction in state dimension. By reducing both the attention cache and the SSM state, the resulting hybrid is $5$--$6\times$ more memory-efficient than comparable hybrids, closing the Transformer--SSM gap at a fraction of the memory cost.
- Abstract(参考訳): 状態空間モデル(SSM)は効率的なシーケンスモデリングを提供するが、文脈内検索を必要とするベンチマークではTransformerに遅れがある。
それまでの作業は、このギャップを、SSMが再現に苦慮しているG&A(Gather-and-Aggregate)と呼ばれる、小さな注目の頭脳と結びつけていた。
本稿では, 事前学習したトランスフォーマーを, これらの検索クリティカルな頭のみを保存し, 残りを再帰的な頭へと蒸留することにより, ハイブリッドな学生に変換する「検索型蒸留」を提案する。
合成検索タスクにおけるアブレーションによる本態的な頭部の同定を行い, 疎密な非均一な注意配置を有するハイブリッドを創出する。
また, 学習負荷の高いタスクでは, 教師のパフォーマンスの95%以上(1Bモデルでは10頭)を保ち, 25%以上保持するハイブリットよりも頭がはるかに少ないことが示唆された。
さらに、大きなリカレント状態は、しばしば欠落した検索を補う: 検索がこれらのヘッドによって処理されると、SSMバックボーンは、状態次元が8\times$減少しても、限られた損失で単純化できる。
注意キャッシュとSSM状態の両方を減らすことで、結果のハイブリッドは、同等のハイブリッドよりも5ドル~6ドル=メモリ効率が高くなり、Transformer--SSMギャップをメモリコストのごく一部で閉じる。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - Apriel-H1: Towards Efficient Enterprise Reasoning Models [6.630534140883356]
ハイブリッドLLMのApriel-H1ファミリーは、15Bモデルサイズでの効率的な推論のためにトランスフォーマーアテンションとSSMシークエンスミキサーを組み合わせた。
SSM-to-MHA比の異なるApriel-H1-15B-Thinkerの蒸留後変種を複数リリースし、より多くのマンバ層がMHAに置き換わるにつれて、推論性能が劣化するかを分析した。
論文 参考訳(メタデータ) (2025-11-04T15:17:43Z) - Autoencoder-Based Hybrid Replay for Class-Incremental Learning [10.061328213032088]
クラスインクリメンタルラーニング(CIL)では、タスクの混乱と忘れを緩和するために効果的なインクリメンタルラーニング戦略が不可欠である。
本稿では,新しいハイブリット・オートエンコーダ(HAE)を活用して圧縮機として機能する,オートエンコーダベースのハイブリッド・リプレイ(AHR)戦略を提案する。
論文 参考訳(メタデータ) (2025-05-09T09:59:12Z) - Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism [15.626801223435173]
状態空間モデル(SSM)は、長いシーケンスに対してトランスフォーマーの効率的な代替手段を提供する。
本研究では,TransformerおよびSSMに基づく言語モデルにおいて,コンテキスト内検索がどのように動作するかを検討する。
論文 参考訳(メタデータ) (2025-04-22T16:15:19Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models [17.027512781038617]
Zeroth-order (ZO) 最適化手法は、メモリ効率の高いフォワードパスを推定に利用することができる。
ZO-SGDの適応であるMeZOは、ゼロショット学習とインコンテキスト学習を一貫して上回ることが示されている。
MeZO-SVRGは1次SGDに比べてメモリフットプリントが大幅に削減される。
論文 参考訳(メタデータ) (2024-04-11T18:35:49Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - MFAGAN: A Compression Framework for Memory-Efficient On-Device
Super-Resolution GAN [27.346272886257335]
本稿では,新しい圧縮フレームワーク textbfMulti-scale textbfFeature textbfAggregation Net based textbfGAN (MFAGAN) を提案する。
MFAGANは、ESRGANと比較して、textbf8.3$times$メモリの節約と textbf42.9$times$計算の削減を達成する。
論文 参考訳(メタデータ) (2021-07-27T09:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。