Fugu-MT 論文翻訳(概要): LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification

論文の概要: LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification

arxiv url: http://arxiv.org/abs/2402.06073v2
Date: Mon, 12 Feb 2024 15:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 19:55:34.246804
Title: LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification
Title（参考訳）: LightCAM: 話者認証のためのコンテキスト対応マスキングに基づくD-TDNNの高速で軽量な実装
Authors: Di Cao, Xianchen Wang, Junfeng Zhou, Jiakai Zhang, Yanjing Lei and Wenpeng Chen
Abstract要約: 従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
参考スコア（独自算出の注目度）: 3.3800597813242628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional Time Delay Neural Networks (TDNN) have achieved state-of-the-art performance at the cost of high computational complexity and slower inference speed, making them difficult to implement in an industrial environment. The Densely Connected Time Delay Neural Network (D-TDNN) with Context Aware Masking (CAM) module has proven to be an efficient structure to reduce complexity while maintaining system performance. In this paper, we propose a fast and lightweight model, LightCAM, which further adopts a depthwise separable convolution module (DSM) and uses multi-scale feature aggregation (MFA) for feature fusion at different levels. Extensive experiments are conducted on VoxCeleb dataset, the comparative results show that it has achieved an EER of 0.83 and MinDCF of 0.0891 in VoxCeleb1-O, which outperforms the other mainstream speaker verification methods. In addition, complexity analysis further demonstrates that the proposed architecture has lower computational cost and faster inference speed.
Abstract（参考訳）: 従来の時間遅延ニューラルネットワーク(TDNN)は、高い計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現しており、産業環境では実装が困難である。 Densely Connected Time Delay Neural Network (D-TDNN)とContext Aware Masking (CAM)モジュールは、システム性能を維持しながら複雑性を低減するための効率的な構造であることが証明されている。本稿では,より奥行き分離可能な畳み込みモジュール (dsm) を採用し,マルチスケール機能集約 (mfa) を異なるレベルでの機能融合に利用する高速軽量モデル lightcam を提案する。 VoxCelebデータセット上で大規模な実験が行われ、比較の結果、VoxCeleb1-Oで0.83のEERと0.0891のMinDCFを達成した。さらに、複雑性解析により、提案アーキテクチャが計算コストを低減し、推論速度を高速化することを示した。

関連論文リスト

LUNA: LUT-Based Neural Architecture for Fast and Low-Cost Qubit Readout [0.0]
LUNAは、低コストのインテグレータベースの前処理とLook-Up Table (LUT)ベースのニューラルネットワークを組み合わせた超伝導量子ビットリードアウトアクセラレータである。最先端技術と比較して10.95倍の面積減少と30%のレイテンシ低下を示し,忠実さの損失はほとんどなかった。
論文参考訳（メタデータ） (2025-12-08T18:41:13Z)
Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow [5.004444099596694]
イベントベースの動き推定(光学フロー)は多くのリアルタイムアプリケーションにとって重要である。 SNNやGNNなどのイベントベースの手法は計算効率が良いが、これらの手法は十分な非同期時間情報の取得に失敗する。本稿では,新しいネットワークアーキテクチャとともにSTSSMモジュールを導入し,競争性能の高い効率的なソリューションを開発した。
論文参考訳（メタデータ） (2025-06-09T15:51:06Z)
ALWNN Empowered Automatic Modulation Classification: Conquering Complexity and Scarce Sample Conditions [24.59462798452397]
本稿では、適応軽量ウェーブレットニューラルネットワーク(ALWNN)とマルチショットフレームワーク(MALWNN)に基づく自動変調分類モデルを提案する。 ALWNNモデルは適応ウェーブレットニューラルネットワークと深度分離可能な畳み込みを統合することで、モデルパラメータの数と計算複雑性を低減する。 MALWNNの実験では、他のアルゴリズムと比較して、数ショットの学習シナリオでは優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-03-24T06:14:33Z)
CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics [7.696109414724968]
スパイキングニューラルネットワーク(SNN)は、イベントベースのオブジェクト認識と検出を約束する。既存のSNNフレームワークは、多くの場合、マルチスケールの時間的特徴を扱うことができず、データの冗長性が向上し、精度が低下する。我々は、イベントベースのオブジェクト検出を利用するために、結合的にトレーニングされた新しいスパイク駆動フレームワークであるCRESTを提案する。
論文参考訳（メタデータ） (2024-12-17T04:33:31Z)
Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文参考訳（メタデータ） (2024-11-07T14:08:35Z)
Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文参考訳（メタデータ） (2024-09-13T07:27:55Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition [15.204703947024242]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-02-07T13:39:38Z)
Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical Flow Estimation [12.611797572621398]
非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、イベントストリームから機能を抽出する大きな可能性を秘めている。本稿では,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-06-05T15:26:02Z)
SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for Benchmarking Spiking Neural Networks [4.0300632886917]
SpikeSimは、IMCマップされたSNNの現実的なパフォーマンス、エネルギ、レイテンシ、領域評価を実現するツールである。神経モジュールの面積の1.24倍と10倍に減少するSNNトポロジカルな変化と全エネルギー・遅延生成値を提案する。
論文参考訳（メタデータ） (2022-10-24T01:07:17Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。 DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。 300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文参考訳（メタデータ） (2020-07-17T08:32:11Z)
Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-07T08:22:56Z)
Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。 LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文参考訳（メタデータ） (2020-06-22T17:19:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。