Fugu-MT 論文翻訳(概要): Optimization of DNN-based speaker verification model through efficient quantization technique

論文の概要: Optimization of DNN-based speaker verification model through efficient quantization technique

arxiv url: http://arxiv.org/abs/2407.08991v1
Date: Fri, 12 Jul 2024 05:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 00:46:38.909353
Title: Optimization of DNN-based speaker verification model through efficient quantization technique
Title（参考訳）: 効率的な量子化手法によるDNN話者検証モデルの最適化
Authors: Yeona Hong, Woo-Jin Chung, Hong-Goo Kang,
Abstract要約: ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。
参考スコア（独自算出の注目度）: 15.250677730668466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Deep Neural Networks (DNNs) rapidly advance in various fields, including speech verification, they typically involve high computational costs and substantial memory consumption, which can be challenging to manage on mobile systems. Quantization of deep models offers a means to reduce both computational and memory expenses. Our research proposes an optimization framework for the quantization of the speaker verification model. By analyzing performance changes and model size reductions in each layer of a pre-trained speaker verification model, we have effectively minimized performance degradation while significantly reducing the model size. Our quantization algorithm is the first attempt to maintain the performance of the state-of-the-art pre-trained speaker verification model, ECAPATDNN, while significantly compressing its model size. Overall, our quantization approach resulted in reducing the model size by half, with an increase in EER limited to 0.07%.
Abstract（参考訳）: ディープニューラルネットワーク(Deep Neural Networks, DNN)は、音声検証を含む様々な分野で急速に進歩しているため、一般的には高い計算コストとかなりのメモリ消費を伴い、モバイルシステムでは管理が難しい。ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。事前学習話者検証モデルの各層における性能変化とモデルサイズ削減を解析することにより、モデルサイズを著しく低減しつつ、性能劣化を効果的に最小化することができる。我々の量子化アルゴリズムは、そのモデルサイズを著しく圧縮しつつ、最先端の事前訓練話者検証モデル ECAPATDNN の性能を維持するための最初の試みである。全体として、我々の量子化アプローチはモデルのサイズを半分に減らし、EERの増大は0.07%に制限された。

関連論文リスト

Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文参考訳（メタデータ） (2025-09-27T21:15:22Z)
Test-Time Model Adaptation for Quantized Neural Networks [37.84294929199108]
量子化モデルは、潜在的なドメインシフトを伴う動的環境において、深刻なパフォーマンス劣化に悩まされることが多い。テスト時間適応(TTA)は、モデルがテストデータから適応的に学習できるようにすることによって、効果的なソリューションとして登場した。本稿では,2つのフォワードパスのみを用いた効率的なモデル適応を実現するための連続ゼロ階適応(ZOA)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T08:24:19Z)
Optimizing Deep Neural Networks using Safety-Guided Self Compression [0.0]
本研究では,ニューラルネットワークの重み付けと定量化を行う新しい安全性駆動量子化フレームワークを提案する。提案手法は、畳み込みニューラルネットワーク(CNN)とアテンションベース言語モデルの両方で厳格に評価される。実験結果から,本フレームワークは,従来の未定量モデルと比較して,テスト精度を最大2.5%向上することがわかった。
論文参考訳（メタデータ） (2025-05-01T06:50:30Z)
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文参考訳（メタデータ） (2025-04-07T08:22:45Z)
Post-Training Non-Uniform Quantization for Convolutional Neural Networks [0.0]
量子化は、大規模なストレージ要件を緩和し、推論プロセスを高速化する技術である。本稿では,モデル重みに対する学習後の量子化手法を提案する。提案手法は,量子化ノイズを最小限に抑える数学的保証とともに,最適クリッピングしきい値とスケーリング係数を求める。
論文参考訳（メタデータ） (2024-12-10T10:33:58Z)
QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。 QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。我々は、QT-DoGが様々なデータセット、アーキテクチャ、量子化アルゴリズムにまたがって一般化することを実証する。
論文参考訳（メタデータ） (2024-10-08T13:21:48Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T07:09:56Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文参考訳（メタデータ） (2022-08-11T04:04:03Z)
Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文参考訳（メタデータ） (2022-07-20T10:55:34Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
VecQ: Minimal Loss DNN Model Compression With Vectorized Weight Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文参考訳（メタデータ） (2020-05-18T07:38:44Z)
SQWA: Stochastic Quantized Weight Averaging for Improving the Generalization Capability of Low-Precision Deep Neural Networks [29.187848543158992]
我々は、新しい量子化ニューラルネットワーク最適化手法、量子化ウェイト平均化(SQWA)を提案する。提案手法には、浮動小数点モデルのトレーニング、重みの直接量子化、複数の低精度モデルのキャプチャ、キャプチャーモデルの平均化、低学習率の微調整が含まれる。 SQWAトレーニングにより、CIFAR-100およびImageNetデータセット上の2ビットQDNNの最先端結果を得た。
論文参考訳（メタデータ） (2020-02-02T07:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。