論文の概要: Dynamic Multi-scale Convolution for Dialect Identification
- arxiv url: http://arxiv.org/abs/2108.07787v1
- Date: Mon, 2 Aug 2021 03:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-22 14:37:17.765325
- Title: Dynamic Multi-scale Convolution for Dialect Identification
- Title(参考訳): 方言識別のための動的マルチスケール畳み込み
- Authors: Tianlong Kong, Shouyi Yin, Dawei Zhang, Wang Geng, Xin Wang, Dandan
Song, Jinwen Huang, Huiyu Shi and Xiaorui Wang
- Abstract要約: 本稿では、動的カーネル畳み込み、局所的マルチスケール学習、グローバルなマルチスケールプールからなる動的マルチスケール畳み込みを提案する。
提案アーキテクチャは,言語認識のAP20-OLR-dialect-taskにおいて,最先端のシステムよりも優れていた。
- 参考スコア(独自算出の注目度): 18.132769601922682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time Delay Neural Networks (TDNN)-based methods are widely used in dialect
identification. However, in previous work with TDNN application, subtle variant
is being neglected in different feature scales. To address this issue, we
propose a new architecture, named dynamic multi-scale convolution, which
consists of dynamic kernel convolution, local multi-scale learning, and global
multi-scale pooling. Dynamic kernel convolution captures features between
short-term and long-term context adaptively. Local multi-scale learning, which
represents multi-scale features at a granular level, is able to increase the
range of receptive fields for convolution operation. Besides, global
multi-scale pooling is applied to aggregate features from different bottleneck
layers in order to collect information from multiple aspects. The proposed
architecture significantly outperforms state-of-the-art system on the
AP20-OLR-dialect-task of oriental language recognition (OLR) challenge 2020,
with the best average cost performance (Cavg) of 0.067 and the best equal error
rate (EER) of 6.52%. Compared with the known best results, our method achieves
9% of Cavg and 45% of EER relative improvement, respectively. Furthermore, the
parameters of proposed model are 91% fewer than the best known model.
- Abstract(参考訳): 時間遅延ニューラルネットワーク(TDNN)に基づく手法は方言識別に広く用いられている。
しかし、以前のTDNNアプリケーションでの作業では、異なる機能スケールで微妙なバリエーションが無視されている。
この問題に対処するために,動的カーネル畳み込み,局所的マルチスケール学習,グローバルなマルチスケールプールからなる動的マルチスケール畳み込みというアーキテクチャを提案する。
動的カーネルの畳み込みは、短期と長期の間の特徴を適応的にキャプチャする。
局所的マルチスケール学習は,マルチスケール特徴を粒度で表現し,畳み込み操作のための受容野の範囲を増加させることができる。
さらに、グローバルマルチスケールのプーリングは、複数の側面から情報を集めるために、異なるボトルネック層から機能を集約するために適用されます。
提案したアーキテクチャは、2020年のオリエンタル言語認識(OLR)チャレンジのAP20-OLR-dialect-taskにおいて、0.067のコストパフォーマンス(Cavg)と6.52%のエラー率(EER)において、最先端のシステムを大幅に上回っている。
既知の最も優れた結果と比較すると, キャビテーションの9%とeerの相対的改善の45%をそれぞれ達成した。
さらに、提案モデルのパラメータは、最もよく知られたモデルよりも91%少ない。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Multimodal Graph Neural Network for Recommendation with Dynamic De-redundancy and Modality-Guided Feature De-noisy [8.799657717956343]
動的デ冗長性とモダリティ誘導型特徴デノイズを用いたマルチモーダルグラフニューラルネットワーク(MGNM)を提案する。
実験により,MGNMは冗長情報の復調・除去を行うマルチモーダル情報に対して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-03T13:23:07Z) - Differentiable architecture search with multi-dimensional attention for spiking neural networks [4.318876451929319]
スパイキングニューラルネットワーク(SNN)は人工知能の分野で大きな人気を集めている。
SNN法の大部分は、ニューラルネットワーク(ANN)の構造を直接継承している。
本稿では,SNNの最適ネットワーク構造探索を直接自動化するために,MA-DARTS(Multi-Attention Differentiable Architecture Search)を提案する。
論文 参考訳(メタデータ) (2024-11-01T07:18:32Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - Deep Multi-Scale Representation Learning with Attention for Automatic
Modulation Classification [11.32380278232938]
畳み込み深部畳み込みニューラルネットワークをベースとしたAMCにおいて,カーネルサイズを大きくすることで,経験的な改善が得られた。
本稿では,大規模なカーネルサイズとSE機構(SE-MSFN)を備えたマルチスケール機能ネットワークを提案する。
SE-MSFNは、よく知られたRADIOML 2018.01Aデータセットで最先端の分類性能を達成する。
論文 参考訳(メタデータ) (2022-08-31T07:26:09Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。