論文の概要: AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers
- arxiv url: http://arxiv.org/abs/2406.08904v1
- Date: Thu, 13 Jun 2024 07:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:54:07.693349
- Title: AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers
- Title(参考訳): AdaPTwin:トランスフォーマーにおける製品ツインの低コスト適応圧縮
- Authors: Emil Biju, Anirudh Sriram, Mert Pilanci,
- Abstract要約: 本稿では,AdaPTwinと呼ばれる低ランク適応圧縮手法を提案する。
提案手法は,新しい話者と音響条件に対する一般化性を維持しつつ,特定の話者に対する圧縮モデルの性能を優先することができる。
本稿では,WhisperモデルとDistil-Whisperモデルを最大45%圧縮し,単語誤り率を2%以下に抑える手法の有効性を示す。
- 参考スコア(独自算出の注目度): 42.97667817025703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large transformer-based models have exhibited remarkable performance in speaker-independent speech recognition, their large size and computational requirements make them expensive or impractical to use in resource-constrained settings. In this work, we propose a low-rank adaptive compression technique called AdaPTwin that jointly compresses product-dependent pairs of weight matrices in the transformer attention layer. Our approach can prioritize the compressed model's performance on a specific speaker while maintaining generalizability to new speakers and acoustic conditions. Notably, our technique requires only 8 hours of speech data for fine-tuning, which can be accomplished in under 20 minutes, making it highly cost-effective compared to other compression methods. We demonstrate the efficacy of our approach by compressing the Whisper and Distil-Whisper models by up to 45% while incurring less than a 2% increase in word error rate.
- Abstract(参考訳): 大きなトランスフォーマーベースのモデルは、話者に依存しない音声認識において顕著な性能を示したが、その大きなサイズと計算上の要求により、リソース制約された設定での使用は高価または実用的ではない。
本研究では,トランスアテンション層内の積依存重み行列を共同圧縮するAdaPTwinという低ランク適応圧縮手法を提案する。
提案手法は,新しい話者と音響条件に対する一般化性を維持しつつ,特定の話者に対する圧縮モデルの性能を優先することができる。
特に,本手法では,20分以内で達成できる微調整に8時間程度の音声データしか必要とせず,他の圧縮法と比較してコスト効率が高い。
本稿では,WhisperモデルとDistil-Whisperモデルを最大45%圧縮し,単語誤り率を2%以下に抑える手法の有効性を示す。
関連論文リスト
- Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - USDC: Unified Static and Dynamic Compression for Visual Transformer [17.10536016262485]
ビジュアルトランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接より小さく圧縮することに重点を置いているが、圧縮比が大きいと性能が劇的に低下する。
動的ネットワーク技術もいくつか適用されており、入力適応効率のよいサブ構造を得るために動的に圧縮し、圧縮比とモデル性能のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2023-10-17T10:04:47Z) - Ultra Dual-Path Compression For Joint Echo Cancellation And Noise
Suppression [38.09558772881095]
固定圧縮比の下では、時間と周波数の両方の手法を組み合わせたデュアルパス圧縮により、さらなる性能向上が期待できる。
提案されたモデルは、高速なFullSubNetやDeepNetFilterと比較して、競争力のある性能を示している。
論文 参考訳(メタデータ) (2023-08-21T21:36:56Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Compressing Transformer-based self-supervised models for speech
processing [45.254624876127124]
本稿では,重量刈り,頭部刈り,低ランク近似,知識蒸留など,一般的な圧縮技術について検討する。
ウォールクロック時間,パラメータ数,乗算演算数など,さまざまな圧縮速度でトレードオフを報告する。
この結果から,最近の手法とのトレードオフを改善する圧縮手法の簡単な組み合わせが導かれる。
論文 参考訳(メタデータ) (2022-11-17T23:53:52Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。