論文の概要: Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers
- arxiv url: http://arxiv.org/abs/2211.09949v3
- Date: Sat, 14 Jun 2025 19:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:44.296983
- Title: Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers
- Title(参考訳): より小さい方が速いか? 自己監督型音声変換器のトレードオフ
- Authors: Tzu-Quan Lin, Tsung-Huan Yang, Chun-Yao Chang, Kuang-Ming Chen, Tzu-hsun Feng, Hung-yi Lee, Hao Tang,
- Abstract要約: 本研究では, 重み付け, 頭部刈り込み, 低ランク近似, 自己教師型音声変換器における知識蒸留の4つの共通圧縮法について検討した。
結果は,それぞれの方法に異なる利点があることを示唆している。
さらに,最近の圧縮技術について,DistilHuBERT,FitHuBERT,LightHuBERT,ARMHuBERT,STaRHuBERTを比較した。
- 参考スコア(独自算出の注目度): 43.09366213320293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based self-supervised models have achieved remarkable success in speech processing, but their large size and high inference cost present significant challenges for real-world deployment. While numerous compression techniques have been proposed, inconsistent evaluation metrics make it difficult to compare their practical effectiveness. In this work, we conduct a comprehensive study of four common compression methods, including weight pruning, head pruning, low-rank approximation, and knowledge distillation on self-supervised speech Transformers. We evaluate each method under three key metrics: parameter count, multiply-accumulate operations, and real-time factor. Results show that each method offers distinct advantages. In addition, we contextualize recent compression techniques, comparing DistilHuBERT, FitHuBERT, LightHuBERT, ARMHuBERT, and STaRHuBERT under the same framework, offering practical guidance on compression for deployment.
- Abstract(参考訳): トランスフォーマーをベースとした自己教師型モデルは,音声処理において顕著な成功を収めている。
多くの圧縮技術が提案されているが、不整合評価指標はそれらの実効性を比較するのを困難にしている。
本研究では,ウェイトプルーニング,ヘッドプルーニング,低ランク近似,および自己教師型音声変換器の知識蒸留を含む,4つの一般的な圧縮手法について包括的な研究を行う。
パラメータカウント,乗算累積演算,実時間係数の3つの指標を用いて各手法の評価を行った。
結果は,それぞれの方法に異なる利点があることを示唆している。
さらに,DistilHuBERT,FitHuBERT,LightHuBERT,ARMHuBERT,STaRHuBERTを同じフレームワークで比較し,デプロイのための圧縮に関する実用的なガイダンスを提供する。
関連論文リスト
- Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments [20.360936113552597]
デバイス上で機械学習モデルをデプロイするには、圧縮アルゴリズムを使用して、高品質なアウトプットを維持しながらモデルを縮小および高速化する。
既存の圧縮ツールは比較を不十分にサポートし、退屈な結果となり、時には不完全な解析が非結合ツールに分散する。
実世界の比較を支援するために,Compress and Compareという対話型ビジュアルシステムを開発した。
コンプレックスとコンプレックスは、圧縮されたモデル間の前兆関係を可視化し、モデルの予測、重み、アクティベーションを比較することで圧縮誘起の挙動変化を明らかにすることで、圧縮戦略を約束する。
論文 参考訳(メタデータ) (2024-08-06T16:17:51Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Lossy and Lossless (L$^2$) Post-training Model Size Compression [12.926354646945397]
本稿では,無損失圧縮と無損失圧縮を統一的に組み合わせた後学習モデルサイズ圧縮法を提案する。
精度を犠牲にすることなく安定な10times$圧縮比を達成でき、短時間で20times$圧縮比を小さくすることができる。
論文 参考訳(メタデータ) (2023-08-08T14:10:16Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Differentiable Microscopy for Content and Task Aware Compressive
Fluorescence Imaging [0.0]
スループットと画質のトレードオフは、顕微鏡に固有の課題である。
ディープラーニングに基づく手法は、圧縮と画質において大きな成功を収めた。
本稿では, 可微分圧縮蛍光顕微鏡を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:53:10Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。