論文の概要: QUADS: QUAntized Distillation Framework for Efficient Speech Language Understanding
- arxiv url: http://arxiv.org/abs/2505.14723v1
- Date: Mon, 19 May 2025 16:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.652725
- Title: QUADS: QUAntized Distillation Framework for Efficient Speech Language Understanding
- Title(参考訳): QUADS:効率的な音声理解のための定量化蒸留フレームワーク
- Authors: Subrata Biswas, Mohammad Nur Hossain Khan, Bashima Islam,
- Abstract要約: 既存の方法は蒸留と量子化を別々に適用し、最適以下の圧縮に繋がる。
我々は,事前学習モデルを用いたマルチステージトレーニングにより,双方を最適化する統合フレームワーク QUADS を提案する。
QUIDSはSLURPで71.13%、FSCで99.20%の精度を達成し、最先端モデルと比較して5.56%の小さな劣化しか達成していない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Understanding (SLU) systems must balance performance and efficiency, particularly in resource-constrained environments. Existing methods apply distillation and quantization separately, leading to suboptimal compression as distillation ignores quantization constraints. We propose QUADS, a unified framework that optimizes both through multi-stage training with a pre-tuned model, enhancing adaptability to low-bit regimes while maintaining accuracy. QUADS achieves 71.13\% accuracy on SLURP and 99.20\% on FSC, with only minor degradations of up to 5.56\% compared to state-of-the-art models. Additionally, it reduces computational complexity by 60--73$\times$ (GMACs) and model size by 83--700$\times$, demonstrating strong robustness under extreme quantization. These results establish QUADS as a highly efficient solution for real-world, resource-constrained SLU applications.
- Abstract(参考訳): 音声言語理解(SLU)システムは、特に資源制約のある環境で、性能と効率のバランスをとる必要がある。
既存の方法は蒸留と量子化を別々に適用し、蒸留は量子化の制約を無視して最適以下の圧縮をもたらす。
本研究では,複数段階のトレーニングを事前学習モデルで行うことにより,低ビット方式への適応性を向上し,精度を向上する一貫したフレームワークであるQUIDSを提案する。
QUIDS は SLURP の 71.13\% の精度と FSC の 99.20\% の精度を達成している。
さらに、計算複雑性を60-73$\times$ (GMACs)、モデルサイズを83-700$\times$に減らし、極端な量子化の下で強い堅牢性を示す。
これらの結果は、現実世界のリソース制約されたSLUアプリケーションのための高効率なソリューションとしてQUIDSを確立している。
関連論文リスト
- Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.884521812433661]
Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文 参考訳(メタデータ) (2025-05-20T07:19:36Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Entanglement Distribution Delay Optimization in Quantum Networks with Distillation [51.53291671169632]
量子ネットワーク(QN)は、分散量子コンピューティングとセンシングアプリケーションを実現するために絡み合った状態を分散する。
QSリソース割り当てフレームワークは、エンド・ツー・エンド(e2e)の忠実度を高め、最小レートと忠実度を満たすために提案される。
論文 参考訳(メタデータ) (2024-05-15T02:04:22Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。