論文の概要: Distillation-based Layer Dropping (DLD) Effective End-to-end Framework for Dynamic Speech Networks
- arxiv url: http://arxiv.org/abs/2601.16117v1
- Date: Thu, 22 Jan 2026 17:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.663948
- Title: Distillation-based Layer Dropping (DLD) Effective End-to-end Framework for Dynamic Speech Networks
- Title(参考訳): 動的音声ネットワークのための蒸留型層滴法(DLD)有効エンドツーエンドフレームワーク
- Authors: Abdul Hannan, Daniele Falavigna, Shah Nawaz, Mubashir Noman, Markus Schedl, Alessio Brutti,
- Abstract要約: レイヤドロップ(mathcalLD$)アプローチは通常、静的モデルを動的モデルに変換するために使用される。
本稿では, エンド・ツー・エンド方式で, 知識蒸留能力と$mathcalLD$を効果的に組み合わせた蒸留ベース層落下(DLD)フレームワークを提案する。
我々のフレームワークは、単語エラー率を9.32%、ハイケースで2.25%、ダウンケースで33.3%、トレーニング時間で3.3%削減する。
- 参考スコア(独自算出の注目度): 20.54366796766549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge devices operate in constrained and varying resource settings, requiring dynamic architectures that can adapt to limitations of the available resources. To meet such demands, layer dropping ($\mathcal{LD}$) approach is typically used to transform static models into dynamic ones by skipping parts of the network along with reducing overall computational complexity. However, existing $\mathcal{LD}$ methods greatly impact the dynamic model's performance for low and high dropping cases, deteriorating the performance-computation trade-off. To this end, we propose a distillation-based layer dropping (DLD) framework that effectively combines the capabilities of knowledge distillation and $\mathcal{LD}$ in an end-to-end fashion, thereby achieving state-of-the-art performance for dynamic speech networks. Comprehensive experimentation utilizing well-known speech recognition methods, including conformer and WavLM, on three public benchmarks demonstrates the effectiveness of our framework, reducing the word error rate by $9.32\%$ and $2.25\%$ for high and no dropping cases with $33.3\%$ reduction in training time.
- Abstract(参考訳): エッジデバイスは制約のあるさまざまなリソース設定で動作し、利用可能なリソースの制限に適応可能な動的アーキテクチャを必要とする。
このような要求を満たすために、レイヤドロップ($\mathcal{LD}$)アプローチは一般的に、ネットワークの一部をスキップすることで静的モデルを動的に変換し、全体的な計算複雑性を低減します。
しかし、既存の$\mathcal{LD}$メソッドは、低値と高値のケースにおいて、動的モデルのパフォーマンスに大きな影響を与え、パフォーマンス計算のトレードオフを悪化させます。
そこで本研究では,知識蒸留能力と$\mathcal{LD}$をエンドツーエンドで効果的に組み合わせて,動的音声ネットワークの最先端性能を実現する蒸留ベース層落下(DLD)フレームワークを提案する。
コンバータとWavLMを含むよく知られた音声認識手法を用いた総合的な実験は、我々のフレームワークの有効性を実証し、単語誤り率を9.32\%と2.25\%に下げ、訓練時間を33.3\%に短縮する。
関連論文リスト
- The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - Input Conditioned Layer Dropping in Speech Foundation Models [11.05223262950967]
層ドロップ(mathcalLD$)は、計算負荷を減らすために、推論中にバックボーンネットワークの層の一部をスキップする。
本稿では,ネットワークの入力機能と,処理層の最適組み合わせを決定するための軽量層選択ネットワークを用いた入力駆動$mathcalLD$を提案する。
論文 参考訳(メタデータ) (2025-07-10T17:39:03Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - Balcony: A Lightweight Approach to Dynamic Inference of Generative Language Models [31.103832542711864]
Balconyは深度に基づく動的推論のためのフレームワークである。
完全なモデルの性能を維持しつつ、異なる計算予算へのリアルタイム適応を可能にしている。
注目すべきことに、BalconyはFlextronやLayerskipのような最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-03-06T22:09:55Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - DyCE: Dynamically Configurable Exiting for Deep Learning Compression and Real-time Scaling [1.8350044465969415]
DyCEは、推論ハードウェアの再初期化や再デプロイを必要とせずに、実行時にディープラーニングモデルのパフォーマンスと複雑さのトレードオフを調整することができる。
DyCEは、ResNet152では23.5%、ImageNetではConvNextv2-tinyでは25.9%、精度は0.5%未満である。
論文 参考訳(メタデータ) (2024-03-04T03:09:28Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。