論文の概要: RAD: Redundancy-Aware Distillation for Hybrid Models via Self-Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.22135v1
- Date: Wed, 28 May 2025 08:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.518003
- Title: RAD: Redundancy-Aware Distillation for Hybrid Models via Self-Speculative Decoding
- Title(参考訳): RAD:自己投機的復号化によるハイブリッドモデルの冗長性を考慮した蒸留
- Authors: Yuichiro Hoshino, Hideyuki Tachibana, Muneyoshi Inahara, Hiroto Takegawa,
- Abstract要約: 自己投機的復号を診断ツールとして用いる新しいフレームワークであるRAD(redundancy-Aware Distillation)を提案する。
RADを用いた自己蒸留が元のベースモデルの性能を大幅に上回っていることを実験的に実証した。
- 参考スコア(独自算出の注目度): 4.549831511476249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid models combining Transformers and State Space Models (SSMs) are promising for balancing performance and efficiency. However, optimizing these hybrid models, particularly by addressing the potential redundancy inherent within the Transformer components, remains a significant challenge. In this paper, we propose RAD (Redundancy-Aware Distillation), a novel framework that uses self-speculative decoding as a diagnostic tool to identify redundant attention layers within the model. These identified layers are then selectively replaced with SSM components, followed by targeted (self-)distillation. Specifically, RAD focuses knowledge transfer on the components identified as redundant, considering architectural changes and specific weight initialization strategies. We experimentally demonstrate that self-distillation using RAD significantly surpasses the performance of the original base model on mathematical and coding tasks. Furthermore, RAD is also effective in standard knowledge distillation settings, achieving up to approximately 2x faster convergence compared to baseline methods. Notably, while a baseline model distilled from a Llama-3.1 70B teacher achieves scores of 46.17 on GSM8K and 22.75 on CRUX, RAD achieves significantly higher scores of 71.27 on GSM8K and 28.25 on CRUX, even when using a much smaller Llama-3.1 8B teacher. RAD offers a new pathway for efficient optimization and performance enhancement in the distillation of hybrid models.
- Abstract(参考訳): TransformerとState Space Models(SSM)を組み合わせたハイブリッドモデルは、パフォーマンスと効率のバランスをとることを約束している。
しかしながら、これらのハイブリッドモデルの最適化、特にTransformerコンポーネントに固有の潜在的な冗長性に対処することは、依然として大きな課題である。
本稿では,自己表現型デコーディングを診断ツールとして用い,モデル内の冗長な注意層を識別する新しいフレームワークであるRAD(redundancy-Aware Distillation)を提案する。
これらの識別された層は選択的にSSMコンポーネントに置換され、続いてターゲット(self-)蒸留される。
特にRADは、アーキテクチャの変更や特定のウェイト初期化戦略を考慮して、冗長と認識されるコンポーネントの知識伝達に重点を置いている。
我々は、RADを用いた自己蒸留が、数学的およびコーディングタスクにおける元のベースモデルの性能を大幅に上回っていることを実験的に実証した。
さらに、RADは標準的な知識蒸留設定にも有効であり、ベースライン法に比べて最大で2倍早く収束する。
特に、Llama-3.1 70B 教師から蒸留されたベースラインモデルは GSM8K で46.17点、CRUX で22.75点、そして RAD は GSM8K で71.27点、CRUX で28.25点のスコアを達成している。
RADは、ハイブリッドモデルの蒸留において、効率的な最適化と性能向上のための新しい経路を提供する。
関連論文リスト
- Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [54.584665518334035]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - PearSAN: A Machine Learning Method for Inverse Design using Pearson Correlated Surrogate Annealing [66.27103948750306]
PearSANは、大きな設計空間を持つ逆設計問題に適用可能な機械学習支援最適化アルゴリズムである。
ピアソン相関代理モデルを用いて、真の設計計量のメリットの図形を予測する。
最先端の最大設計効率は97%で、少なくとも以前の方法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-12-26T17:02:19Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Indirect Gradient Matching for Adversarial Robust Distillation [15.184564265850382]
アドリアトレーニングは敵の堅牢性を大幅に向上させるが、優れた性能は大きなモデルで主に達成される。
既存の反対蒸留法(AD)は教師の足跡をガイドとして活用する。
Indirect Gradient Distillation Module (IGDM) と呼ばれる蒸留モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:32:38Z) - Double Reverse Regularization Network Based on Self-Knowledge
Distillation for SAR Object Classification [12.976481910364665]
本稿では,自己知識蒸留(DRRNet-SKD)に基づく新しい二重逆正規化ネットワークを提案する。
DRRNet-SKDは従来のCNNに顕著な性能向上を示し、最先端の自己知識蒸留法より優れている。
論文 参考訳(メタデータ) (2023-11-26T08:09:43Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction [22.96768147978534]
本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための階層型ランキングアーキテクチャCascaderを提案する。
CascadER は LM を用いて、より効率的な KGE の出力を再現し、KGE の精度向上を最大化しつつ、LM を最小限に呼び出すための適応的なサブセット選択方式に依存している。
実験により, モデル間の多様性と個々のモデルの信頼性信号の保存がカスケーダの有効性を説明するのに有効であることがわかった。
論文 参考訳(メタデータ) (2022-05-16T22:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。