論文の概要: BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing
- arxiv url: http://arxiv.org/abs/2506.03515v1
- Date: Wed, 04 Jun 2025 03:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.1195
- Title: BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing
- Title(参考訳): BitTTS: 1.58ビット量子化と重みインデックスを用いた高コンパクトテキスト音声合成
- Authors: Masaya Kawamura, Takuya Hasumi, Yuma Shirahata, Ryuichi Yamamoto,
- Abstract要約: 本稿では,オンデバイスアプリケーションのための,コンパクトで軽量なテキスト音声合成(TTS)モデルを提案する。
トレーニング中のモデルパラメータを1.58ビット以下に定量化するQAT(quantization-aware training)を導入する。
Int8インデックスとして1.58ビットの重み群を節約する重みインデックス法も提案する。
- 参考スコア(独自算出の注目度): 8.513851383288067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a highly compact, lightweight text-to-speech (TTS) model for on-device applications. To reduce the model size, the proposed model introduces two techniques. First, we introduce quantization-aware training (QAT), which quantizes model parameters during training to as low as 1.58-bit. In this case, most of 32-bit model parameters are quantized to ternary values {-1, 0, 1}. Second, we propose a method named weight indexing. In this method, we save a group of 1.58-bit weights as a single int8 index. This allows for efficient storage of model parameters, even on hardware that treats values in units of 8-bit. Experimental results demonstrate that the proposed method achieved 83 % reduction in model size, while outperforming the baseline of similar model size without quantization in synthesis quality.
- Abstract(参考訳): 本稿では,オンデバイスアプリケーションのための,コンパクトで軽量なテキスト音声合成(TTS)モデルを提案する。
モデルサイズを低減するため,提案モデルでは2つの手法を提案する。
まず、トレーニング中のモデルパラメータを1.58ビット以下に定量化する量子化対応トレーニング(QAT)を導入する。
この場合、32ビットモデルパラメータのほとんどが3次値 {-1, 0, 1} に量子化される。
次に,重み付け法を提案する。
この方法では、1.58ビットの重みの群を単一の int8 インデックスとして保存する。
これにより、8ビット単位の値を扱うハードウェアであっても、モデルパラメータの効率的な保存が可能になる。
提案手法は, 合成品質の定量化を伴わずに, モデルサイズを83%削減し, 類似モデルサイズのベースラインよりも優れた性能を示した。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Efficient Speech Representation Learning with Low-Bit Quantization [32.75829498841329]
音声表現学習モデルにおける最近の量子化手法を適用し,検討する。
1ビットへのアグレッシブ量子化により、86.32%のストレージ削減(4.42 -> 25.23)、88%のランタイム削減(1.00 -> 0.12)とワードエラー率(7.06 -> 15.96)を達成した。
モデル圧縮も目的とするDistillHuBERTと比較すると、2ビット構成ではストレージがわずかに小さく(35.84対46.98)、ワードエラー率(12.68対13.37)、ランタイム推定(0.15対0.73)が向上した。
論文 参考訳(メタデータ) (2022-12-14T06:09:08Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。