論文の概要: Improved RawNet with Feature Map Scaling for Text-independent Speaker
Verification using Raw Waveforms
- arxiv url: http://arxiv.org/abs/2004.00526v2
- Date: Thu, 7 May 2020 04:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 19:23:40.422664
- Title: Improved RawNet with Feature Map Scaling for Text-independent Speaker
Verification using Raw Waveforms
- Title(参考訳): テキスト独立話者検証のための特徴マップスケーリングによるRawNetの改良
- Authors: Jee-weon Jung, Seung-bin Kim, Hye-jin Shim, Ju-ho Kim, and Ha-Jin Yu
- Abstract要約: 様々な手法を用いて特徴マップをスケーリングすることでRawNetを改善する。
最高の性能のシステムでは、元のRawNetに比べてエラー率を半分に減らす。
- 参考スコア(独自算出の注目度): 44.192033435682944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have facilitated the design of speaker
verification systems that directly input raw waveforms. For example, RawNet
extracts speaker embeddings from raw waveforms, which simplifies the process
pipeline and demonstrates competitive performance. In this study, we improve
RawNet by scaling feature maps using various methods. The proposed mechanism
utilizes a scale vector that adopts a sigmoid non-linear function. It refers to
a vector with dimensionality equal to the number of filters in a given feature
map. Using a scale vector, we propose to scale the feature map
multiplicatively, additively, or both. In addition, we investigate replacing
the first convolution layer with the sinc-convolution layer of SincNet.
Experiments performed on the VoxCeleb1 evaluation dataset demonstrate the
effectiveness of the proposed methods, and the best performing system reduces
the equal error rate by half compared to the original RawNet. Expanded
evaluation results obtained using the VoxCeleb1-E and VoxCeleb-H protocols
marginally outperform existing state-of-the-art systems.
- Abstract(参考訳): 近年のディープラーニングの進歩により、生波形を直接入力する話者検証システムの設計が容易になった。
例えば、RawNetは生波形から話者埋め込みを抽出し、プロセスパイプラインを単純化し、競争性能を示す。
本研究では,様々な手法を用いて特徴マップをスケーリングすることでRawNetを改善する。
提案機構は、シグモイド非線型関数を採用するスケールベクトルを利用する。
これは、与えられた特徴写像におけるフィルタの数に等しい次元を持つベクトルを指す。
スケールベクトルを用いて, 特徴写像を乗法的, 加法的, あるいはその両方にスケールすることを提案する。
さらに,第1の畳み込み層をSincNetの sinc-畳み込み層に置き換える検討を行った。
voxceleb1評価データセットで行った実験では,提案手法の有効性が示され,最良性能のシステムは,元のrawnetと比較して誤差率を半減する。
VoxCeleb1-E と VoxCeleb-H プロトコルを用いて得られた評価結果は,既存の最先端システムよりわずかに優れている。
関連論文リスト
- WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Rewarded meta-pruning: Meta Learning with Rewards for Channel Pruning [19.978542231976636]
本稿では,ディープラーニングモデルにおける計算効率向上のためのパラメータとFLOPの削減手法を提案する。
本稿では,ネットワークの精度と計算効率のトレードオフを制御するために,精度と効率係数を導入する。
論文 参考訳(メタデータ) (2023-01-26T12:32:01Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Gaussian Vector: An Efficient Solution for Facial Landmark Detection [3.058685580689605]
本稿では,空間情報を保存し,出力サイズを小さくし,後処理を簡素化する新しい手法であるガウスベクトルを提案する。
提案手法を300W, COFW, WFLW, JDランドマークで評価した。
論文 参考訳(メタデータ) (2020-10-03T10:15:41Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - WoodFisher: Efficient Second-Order Approximation for Neural Network
Compression [35.45199662813043]
我々は、逆ヘッセンの忠実で効率的な推定法を開発する。
私たちの主な応用はニューラルネットワーク圧縮です。
本稿では,この手法をどのように拡張して1次情報を考慮するかを示す。
論文 参考訳(メタデータ) (2020-04-29T17:14:23Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Speaker Recognition using SincNet and X-Vector Fusion [8.637110868126546]
我々は、最近導入された2つのディープニューラルネットワーク(DNN)、すなわちSincNetとX-Celeb1を融合して話者認識を行う革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-05T14:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。