論文の概要: LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-TDNN for Speaker Verification
- arxiv url: http://arxiv.org/abs/2402.06073v2
- Date: Mon, 12 Feb 2024 15:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:55:34.246804
- Title: LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-TDNN for Speaker Verification
- Title(参考訳): LightCAM: 話者認証のためのコンテキスト対応マスキングに基づくD-TDNNの高速で軽量な実装
- Authors: Di Cao, Xianchen Wang, Junfeng Zhou, Jiakai Zhang, Yanjing Lei and
Wenpeng Chen
- Abstract要約: 従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。
本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
- 参考スコア(独自算出の注目度): 3.3800597813242628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Time Delay Neural Networks (TDNN) have achieved state-of-the-art
performance at the cost of high computational complexity and slower inference
speed, making them difficult to implement in an industrial environment. The
Densely Connected Time Delay Neural Network (D-TDNN) with Context Aware Masking
(CAM) module has proven to be an efficient structure to reduce complexity while
maintaining system performance. In this paper, we propose a fast and
lightweight model, LightCAM, which further adopts a depthwise separable
convolution module (DSM) and uses multi-scale feature aggregation (MFA) for
feature fusion at different levels. Extensive experiments are conducted on
VoxCeleb dataset, the comparative results show that it has achieved an EER of
0.83 and MinDCF of 0.0891 in VoxCeleb1-O, which outperforms the other
mainstream speaker verification methods. In addition, complexity analysis
further demonstrates that the proposed architecture has lower computational
cost and faster inference speed.
- Abstract(参考訳): 従来の時間遅延ニューラルネットワーク(TDNN)は、高い計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現しており、産業環境では実装が困難である。
Densely Connected Time Delay Neural Network (D-TDNN)とContext Aware Masking (CAM)モジュールは、システム性能を維持しながら複雑性を低減するための効率的な構造であることが証明されている。
本稿では,より奥行き分離可能な畳み込みモジュール (dsm) を採用し,マルチスケール機能集約 (mfa) を異なるレベルでの機能融合に利用する高速軽量モデル lightcam を提案する。
VoxCelebデータセット上で大規模な実験が行われ、比較の結果、VoxCeleb1-Oで0.83のEERと0.0891のMinDCFを達成した。
さらに、複雑性解析により、提案アーキテクチャが計算コストを低減し、推論速度を高速化することを示した。
関連論文リスト
- PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity
Recognition [16.11114486075643]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-07T13:39:38Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network
through Spatial-Temporal Compressive Network Search and Joint Optimization [51.9395471326897]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitESNNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical
Flow Estimation [4.7519630770389405]
非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、イベントデータからフェールテンポラリな特徴を抽出する大きな可能性を示す。
しかし、トレーニング可能なパラメータの追加、深層での消滅、微分不可能なバイナリアクティベーション機能などにより、SNNのトレーニングは困難である。
本稿では,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-05T15:26:02Z) - SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for
Benchmarking Spiking Neural Networks [4.0300632886917]
SpikeSimは、IMCマップされたSNNの現実的なパフォーマンス、エネルギ、レイテンシ、領域評価を実現するツールである。
神経モジュールの面積の1.24倍と10倍に減少するSNNトポロジカルな変化と全エネルギー・遅延生成値を提案する。
論文 参考訳(メタデータ) (2022-10-24T01:07:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - STONNE: A Detailed Architectural Simulator for Flexible Neural Network
Accelerators [5.326345912766044]
STONNEはサイクル精度が高く、高度にモジュール化され、高度に拡張可能なシミュレーションフレームワークである。
一般に公開されているBSV符号化MAERIの実装の性能結果にどのように近づくかを示す。
論文 参考訳(メタデータ) (2020-06-10T19:20:52Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。