論文の概要: Learnable Nonlinear Compression for Robust Speaker Verification
- arxiv url: http://arxiv.org/abs/2202.05236v1
- Date: Thu, 10 Feb 2022 18:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 17:25:52.285717
- Title: Learnable Nonlinear Compression for Robust Speaker Verification
- Title(参考訳): ロバスト話者検証のための学習可能な非線形圧縮
- Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
- Abstract要約: データ駆動方式で最適化された異なる種類のチャネル依存(CD)非線形圧縮手法を検討する。
本手法は電力非線形性とダイナミックレンジ圧縮(DRC)に基づく。
- 参考スコア(独自算出の注目度): 18.684888457998284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we focus on nonlinear compression methods in spectral features
for speaker verification based on deep neural network. We consider different
kinds of channel-dependent (CD) nonlinear compression methods optimized in a
data-driven manner. Our methods are based on power nonlinearities and dynamic
range compression (DRC). We also propose multi-regime (MR) design on the
nonlinearities, at improving robustness. Results on VoxCeleb1 and VoxMovies
data demonstrate improvements brought by proposed compression methods over both
the commonly-used logarithm and their static counterparts, especially for ones
based on power function. While CD generalization improves performance on
VoxCeleb1, MR provides more robustness on VoxMovies, with a maximum relative
equal error rate reduction of 21.6%.
- Abstract(参考訳): 本研究では,ディープニューラルネットワークに基づく話者照合のためのスペクトル特徴の非線形圧縮法に着目した。
データ駆動方式で最適化された異なる種類のチャネル依存(CD)非線形圧縮手法を検討する。
本手法は電力非線形性と動的範囲圧縮(DRC)に基づく。
また、ロバスト性を改善するために、非線形性に基づくマルチレジーム(MR)設計を提案する。
voxceleb1とvoxmoviesのデータの結果は、一般的な対数法と静的対数法の両方、特にパワー関数に基づく圧縮法によってもたらされる改善を示している。
CDの一般化によりVoxCeleb1の性能が向上する一方、MRはVoxMoviesよりもロバスト性が高く、対等なエラー率を最大21.6%削減する。
関連論文リスト
- On Disentangled Training for Nonlinear Transform in Learned Image Compression [59.66885464492666]
学習画像圧縮(lic)は,従来のコーデックに比べて高いレート歪み(R-D)性能を示した。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
非線形変換の訓練において, エネルギーの縮退を両立させる線形補助変換(AuxT)を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:32:06Z) - Model and Deep learning based Dynamic Range Compression Inversion [12.002024727237837]
DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2024-11-07T00:33:07Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z) - SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field [41.33347056627581]
本稿では,EVG圧縮に空間予測符号化を適用した新しいフレームワークであるSPC-NeRFを提案する。
我々の手法は最先端のVQRFに比べて32%のビット節約が可能である。
論文 参考訳(メタデータ) (2024-02-26T07:40:45Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - On Communication Compression for Distributed Optimization on
Heterogeneous Data [28.197694894254305]
機械学習モデルの分散トレーニングにおいて、通信ボトルネックを回避するために、ロッシー勾配圧縮が重要なツールとなっている。
i) 任意の非バイアス量子化器を用いた分散量子化SGDと(ii) エラーフィードバックとバイアス圧縮器を用いた分散SGDの2種類の標準および一般的な手法の性能解析を行う。
以上の結果から,D-EF-SGDは非IDデータによるD-QSGDよりも影響を受けないことがわかった。
論文 参考訳(メタデータ) (2020-09-04T20:48:08Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。