論文の概要: LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-Tdnn for Speaker Verification
- arxiv url: http://arxiv.org/abs/2402.06073v1
- Date: Thu, 8 Feb 2024 21:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:43:19.687180
- Title: LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-Tdnn for Speaker Verification
- Title(参考訳): LightCAM: 話者検証のためのコンテキスト対応マスキングに基づくD-Tdnnの高速で軽量な実装
- Authors: Di Cao, Xianchen Wang, Junfeng Zhou, Jiakai Zhang, Yanjing Lei and
Wenpeng Chen
- Abstract要約: 従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。
本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
- 参考スコア(独自算出の注目度): 3.3800597813242628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Time Delay Neural Networks (TDNN) have achieved state-of-the-art
performance at the cost of high computational complexity and slower inference
speed, making them difficult to implement in an industrial environment. The
Densely Connected Time Delay Neural Network (D-TDNN) with Context Aware Masking
(CAM) module has proven to be an efficient structure to reduce complexity while
maintaining system performance. In this paper, we propose a fast and
lightweight model, LightCAM, which further adopts a depthwise separable
convolution module (DSM) and uses multi-scale feature aggregation (MFA) for
feature fusion at different levels. Extensive experiments are conducted on
VoxCeleb dataset, the comparative results show that it has achieved an EER of
0.83 and MinDCF of 0.0891 in VoxCeleb1-O, which outperforms the other
mainstream speaker verification methods. In addition, complexity analysis
further demonstrates that the proposed architecture has lower computational
cost and faster inference speed.
- Abstract(参考訳): 従来の時間遅延ニューラルネットワーク(TDNN)は、高い計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現しており、産業環境では実装が困難である。
Densely Connected Time Delay Neural Network (D-TDNN)とContext Aware Masking (CAM)モジュールは、システム性能を維持しながら複雑性を低減するための効率的な構造であることが証明されている。
本稿では,より奥行き分離可能な畳み込みモジュール (dsm) を採用し,マルチスケール機能集約 (mfa) を異なるレベルでの機能融合に利用する高速軽量モデル lightcam を提案する。
VoxCelebデータセット上で大規模な実験が行われ、比較の結果、VoxCeleb1-Oで0.83のEERと0.0891のMinDCFを達成した。
さらに、複雑性解析により、提案アーキテクチャが計算コストを低減し、推論速度を高速化することを示した。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition [15.204703947024242]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-07T13:39:38Z) - Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical Flow Estimation [12.611797572621398]
非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、イベントストリームから機能を抽出する大きな可能性を秘めている。
本稿では,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-05T15:26:02Z) - SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for
Benchmarking Spiking Neural Networks [4.0300632886917]
SpikeSimは、IMCマップされたSNNの現実的なパフォーマンス、エネルギ、レイテンシ、領域評価を実現するツールである。
神経モジュールの面積の1.24倍と10倍に減少するSNNトポロジカルな変化と全エネルギー・遅延生成値を提案する。
論文 参考訳(メタデータ) (2022-10-24T01:07:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。