論文の概要: Dynamic Multi-scale Convolution for Dialect Identification
- arxiv url: http://arxiv.org/abs/2108.07787v1
- Date: Mon, 2 Aug 2021 03:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-22 14:37:17.765325
- Title: Dynamic Multi-scale Convolution for Dialect Identification
- Title(参考訳): 方言識別のための動的マルチスケール畳み込み
- Authors: Tianlong Kong, Shouyi Yin, Dawei Zhang, Wang Geng, Xin Wang, Dandan
Song, Jinwen Huang, Huiyu Shi and Xiaorui Wang
- Abstract要約: 本稿では、動的カーネル畳み込み、局所的マルチスケール学習、グローバルなマルチスケールプールからなる動的マルチスケール畳み込みを提案する。
提案アーキテクチャは,言語認識のAP20-OLR-dialect-taskにおいて,最先端のシステムよりも優れていた。
- 参考スコア(独自算出の注目度): 18.132769601922682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time Delay Neural Networks (TDNN)-based methods are widely used in dialect
identification. However, in previous work with TDNN application, subtle variant
is being neglected in different feature scales. To address this issue, we
propose a new architecture, named dynamic multi-scale convolution, which
consists of dynamic kernel convolution, local multi-scale learning, and global
multi-scale pooling. Dynamic kernel convolution captures features between
short-term and long-term context adaptively. Local multi-scale learning, which
represents multi-scale features at a granular level, is able to increase the
range of receptive fields for convolution operation. Besides, global
multi-scale pooling is applied to aggregate features from different bottleneck
layers in order to collect information from multiple aspects. The proposed
architecture significantly outperforms state-of-the-art system on the
AP20-OLR-dialect-task of oriental language recognition (OLR) challenge 2020,
with the best average cost performance (Cavg) of 0.067 and the best equal error
rate (EER) of 6.52%. Compared with the known best results, our method achieves
9% of Cavg and 45% of EER relative improvement, respectively. Furthermore, the
parameters of proposed model are 91% fewer than the best known model.
- Abstract(参考訳): 時間遅延ニューラルネットワーク(TDNN)に基づく手法は方言識別に広く用いられている。
しかし、以前のTDNNアプリケーションでの作業では、異なる機能スケールで微妙なバリエーションが無視されている。
この問題に対処するために,動的カーネル畳み込み,局所的マルチスケール学習,グローバルなマルチスケールプールからなる動的マルチスケール畳み込みというアーキテクチャを提案する。
動的カーネルの畳み込みは、短期と長期の間の特徴を適応的にキャプチャする。
局所的マルチスケール学習は,マルチスケール特徴を粒度で表現し,畳み込み操作のための受容野の範囲を増加させることができる。
さらに、グローバルマルチスケールのプーリングは、複数の側面から情報を集めるために、異なるボトルネック層から機能を集約するために適用されます。
提案したアーキテクチャは、2020年のオリエンタル言語認識(OLR)チャレンジのAP20-OLR-dialect-taskにおいて、0.067のコストパフォーマンス(Cavg)と6.52%のエラー率(EER)において、最先端のシステムを大幅に上回っている。
既知の最も優れた結果と比較すると, キャビテーションの9%とeerの相対的改善の45%をそれぞれ達成した。
さらに、提案モデルのパラメータは、最もよく知られたモデルよりも91%少ない。
関連論文リスト
- Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Adaptive Growth: Real-time CNN Layer Expansion [0.0]
本研究では,データ入力に基づいて,畳み込みニューラルネットワーク(CNN)の畳み込み層を動的に進化させるアルゴリズムを提案する。
厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。
興味深いことに、我々の教師なしの手法は、さまざまなデータセットにまたがって教師なしの手法を上回った。
論文 参考訳(メタデータ) (2023-09-06T14:43:58Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - Deep Multi-Scale Representation Learning with Attention for Automatic
Modulation Classification [11.32380278232938]
畳み込み深部畳み込みニューラルネットワークをベースとしたAMCにおいて,カーネルサイズを大きくすることで,経験的な改善が得られた。
本稿では,大規模なカーネルサイズとSE機構(SE-MSFN)を備えたマルチスケール機能ネットワークを提案する。
SE-MSFNは、よく知られたRADIOML 2018.01Aデータセットで最先端の分類性能を達成する。
論文 参考訳(メタデータ) (2022-08-31T07:26:09Z) - GMLP: Building Scalable and Flexible Graph Neural Networks with
Feature-Message Passing [16.683813354137254]
Graph Multi-layer Perceptron (GMLP)は、ニューラルアップデートとメッセージパッシングを分離する。
11のベンチマークデータセットに対して広範な評価を行う。
論文 参考訳(メタデータ) (2021-04-20T10:19:21Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。