論文の概要: Data Efficient Any Transformer-to-Mamba Distillation via Attention Bridge
- arxiv url: http://arxiv.org/abs/2510.19266v2
- Date: Thu, 23 Oct 2025 07:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.144693
- Title: Data Efficient Any Transformer-to-Mamba Distillation via Attention Bridge
- Title(参考訳): アテンションブリッジによるトランスフォーマー-マンバ蒸留の効率的なデータ化
- Authors: Penghao Wang, Yuhao Zhou, Mengxuan Wu, Panpan Zhang, Zhangyang Wang, Kai Wang,
- Abstract要約: 状態空間モデル(SSM)はシーケンシャルモデリングのためのトランスフォーマーの効率的な代替品として登場し、再帰的な構造を通して優れたスケーラビリティを提供する。
本研究では,トランスフォーマーの教師から状態空間の学生モデルへの注意知識の伝達を効率的に行う新しいデータ効率蒸留フレームワークであるCAB(Cross-architecture distillation via Attention Bridge)を提案する。
本研究は,より強力なSSMコミュニティを構築するために,Transformerの専門知識の迅速な活用を可能にするために,注意に基づく知識を反復モデルに効率的に移行できることを示唆する。
- 参考スコア(独自算出の注目度): 54.948715010753745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-space models (SSMs) have emerged as efficient alternatives to Transformers for sequence modeling, offering superior scalability through recurrent structures. However, their training remains costly and the ecosystem around them is far less mature than that of Transformers. Moreover, the structural heterogeneity between SSMs and Transformers makes it challenging to efficiently distill knowledge from pretrained attention models. In this work, we propose Cross-architecture distillation via Attention Bridge (CAB), a novel data-efficient distillation framework that efficiently transfers attention knowledge from Transformer teachers to state-space student models. Unlike conventional knowledge distillation that transfers knowledge only at the output level, CAB enables token-level supervision via a lightweight bridge and flexible layer-wise alignment, improving both efficiency and transferability. We further introduce flexible layer-wise alignment strategies to accommodate architectural discrepancies between teacher and student. Extensive experiments across vision and language domains demonstrate that our method consistently improves the performance of state-space models, even under limited training data, outperforming both standard and cross-architecture distillation methods. Our findings suggest that attention-based knowledge can be efficiently transferred to recurrent models, enabling rapid utilization of Transformer expertise for building a stronger SSM community.
- Abstract(参考訳): 状態空間モデル(SSM)はシーケンシャルモデリングのためのトランスフォーマーの効率的な代替品として登場し、再帰的な構造を通して優れたスケーラビリティを提供する。
しかし、彼らのトレーニングは依然として費用がかかり、その周りのエコシステムはTransformersよりもはるかに成熟していない。
さらに、SSMとトランスフォーマーの構造的不均一性は、事前学習された注意モデルから知識を効率的に抽出することを困難にしている。
本研究では,トランスフォーマーの教師から状態空間の学生モデルへの注意知識の伝達を効率的に行う新しいデータ効率蒸留フレームワークであるCAB(Cross-architecture distillation via Attention Bridge)を提案する。
出力レベルでのみ知識を伝達する従来の知識蒸留とは異なり、CABは軽量ブリッジとフレキシブルなレイヤワイドアライメントを通じてトークンレベルの監視を可能にし、効率と転送性の両方を改善している。
さらに,教師と学生のアーキテクチャ上の相違に対応するため,フレキシブルなレイヤワイドアライメント戦略を導入する。
視覚領域と言語領域をまたいだ広範囲な実験により、我々の手法は、限られた訓練データの下でも、状態空間モデルの性能を一貫して改善し、標準的な蒸留法とクロスアーキテクチャ蒸留法の両方に勝ることを示した。
本研究は,より強力なSSMコミュニティを構築するために,Transformerの専門知識の迅速な活用を可能にするために,注意に基づく知識を反復モデルに効率的に移行できることを示唆する。
関連論文リスト
- ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation [55.55242848676581]
事前訓練された視覚表現モデルからの知識蒸留は、小さなタスク固有の生産モデルを改善する効果的なアプローチを提供する。
しかし、そのような知識伝達の有効性は、大規模に事前訓練された強いモデルから蒸留する場合に著しく低下する。
相互情報と蒸留の有効性の関連性から,我々は微調整中に相互情報認識最適化を採用することを提案する。
論文 参考訳(メタデータ) (2025-06-29T00:25:23Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation [49.794142076551026]
Transformer-based Knowledge Distillation (TransKD) フレームワークは,大規模教師トランスフォーマーの機能マップとパッチ埋め込みの両方を蒸留することにより,コンパクトな学生トランスフォーマーを学習する。
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験は、TransKDが最先端の蒸留フレームワークより優れていることを示している。
論文 参考訳(メタデータ) (2022-02-27T16:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。