Fugu-MT 論文翻訳(概要): Dynamic Multi-scale Convolution for Dialect Identification

論文の概要: Dynamic Multi-scale Convolution for Dialect Identification

arxiv url: http://arxiv.org/abs/2108.07787v1
Date: Mon, 2 Aug 2021 03:37:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-22 14:37:17.765325
Title: Dynamic Multi-scale Convolution for Dialect Identification
Title（参考訳）: 方言識別のための動的マルチスケール畳み込み
Authors: Tianlong Kong, Shouyi Yin, Dawei Zhang, Wang Geng, Xin Wang, Dandan Song, Jinwen Huang, Huiyu Shi and Xiaorui Wang
Abstract要約: 本稿では、動的カーネル畳み込み、局所的マルチスケール学習、グローバルなマルチスケールプールからなる動的マルチスケール畳み込みを提案する。提案アーキテクチャは,言語認識のAP20-OLR-dialect-taskにおいて,最先端のシステムよりも優れていた。
参考スコア（独自算出の注目度）: 18.132769601922682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Time Delay Neural Networks (TDNN)-based methods are widely used in dialect identification. However, in previous work with TDNN application, subtle variant is being neglected in different feature scales. To address this issue, we propose a new architecture, named dynamic multi-scale convolution, which consists of dynamic kernel convolution, local multi-scale learning, and global multi-scale pooling. Dynamic kernel convolution captures features between short-term and long-term context adaptively. Local multi-scale learning, which represents multi-scale features at a granular level, is able to increase the range of receptive fields for convolution operation. Besides, global multi-scale pooling is applied to aggregate features from different bottleneck layers in order to collect information from multiple aspects. The proposed architecture significantly outperforms state-of-the-art system on the AP20-OLR-dialect-task of oriental language recognition (OLR) challenge 2020, with the best average cost performance (Cavg) of 0.067 and the best equal error rate (EER) of 6.52%. Compared with the known best results, our method achieves 9% of Cavg and 45% of EER relative improvement, respectively. Furthermore, the parameters of proposed model are 91% fewer than the best known model.
Abstract（参考訳）: 時間遅延ニューラルネットワーク(TDNN)に基づく手法は方言識別に広く用いられている。しかし、以前のTDNNアプリケーションでの作業では、異なる機能スケールで微妙なバリエーションが無視されている。この問題に対処するために,動的カーネル畳み込み,局所的マルチスケール学習,グローバルなマルチスケールプールからなる動的マルチスケール畳み込みというアーキテクチャを提案する。動的カーネルの畳み込みは、短期と長期の間の特徴を適応的にキャプチャする。局所的マルチスケール学習は,マルチスケール特徴を粒度で表現し,畳み込み操作のための受容野の範囲を増加させることができる。さらに、グローバルマルチスケールのプーリングは、複数の側面から情報を集めるために、異なるボトルネック層から機能を集約するために適用されます。提案したアーキテクチャは、2020年のオリエンタル言語認識(OLR)チャレンジのAP20-OLR-dialect-taskにおいて、0.067のコストパフォーマンス(Cavg)と6.52%のエラー率(EER)において、最先端のシステムを大幅に上回っている。既知の最も優れた結果と比較すると, キャビテーションの9%とeerの相対的改善の45%をそれぞれ達成した。さらに、提案モデルのパラメータは、最もよく知られたモデルよりも91%少ない。

関連論文リスト

UniPhyNet: A Unified Network For Multimodal Physiological Raw Signal Classification [0.18416014644193066]
マルチモーダルな生理学的データを用いて認知負荷を分類するニューラルネットワークアーキテクチャUniPhyNetを提案する。 CL-Driveデータセットでは、UniPhyNetは生信号の分類精度を70%から80%(バイナリ)、62%から74%(3つ)に改善している。
論文参考訳（メタデータ） (2025-07-08T07:13:45Z)
MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection [0.0]
Matrix-Interpolated Dropout Layer (MID-L) は、最も情報性の高いニューロンのみを動的に選択し、活性化する。 MNIST, CIFAR-10, CIFAR-100, SVHN, UCI adult, IMDB の6つのベンチマークによる実験の結果, MID-L は活動ニューロンの55%まで減少することがわかった。
論文参考訳（メタデータ） (2025-05-16T16:29:19Z)
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。 Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文参考訳（メタデータ） (2025-01-07T14:57:08Z)
Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:38Z)
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning [19.66373610185542]
Mixture-of-Denoising Experts (MoDE)は、Imitation Learningの新しいポリシーである。 MoDE は現在の最先端の Transformer ベースの Diffusion Policies を超えている。 MoDEは、確立された4つの模倣学習ベンチマークで134タスクの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-17T14:34:51Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Multimodal Graph Neural Network for Recommendation with Dynamic De-redundancy and Modality-Guided Feature De-noisy [8.799657717956343]
動的デ冗長性とモダリティ誘導型特徴デノイズを用いたマルチモーダルグラフニューラルネットワーク(MGNM)を提案する。実験により,MGNMは冗長情報の復調・除去を行うマルチモーダル情報に対して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-03T13:23:07Z)
Differentiable architecture search with multi-dimensional attention for spiking neural networks [4.318876451929319]
スパイキングニューラルネットワーク(SNN)は人工知能の分野で大きな人気を集めている。 SNN法の大部分は、ニューラルネットワーク(ANN)の構造を直接継承している。本稿では,SNNの最適ネットワーク構造探索を直接自動化するために,MA-DARTS(Multi-Attention Differentiable Architecture Search)を提案する。
論文参考訳（メタデータ） (2024-11-01T07:18:32Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。 VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文参考訳（メタデータ） (2023-03-20T10:58:12Z)
Deep Multi-Scale Representation Learning with Attention for Automatic Modulation Classification [11.32380278232938]
畳み込み深部畳み込みニューラルネットワークをベースとしたAMCにおいて,カーネルサイズを大きくすることで,経験的な改善が得られた。本稿では,大規模なカーネルサイズとSE機構(SE-MSFN)を備えたマルチスケール機能ネットワークを提案する。 SE-MSFNは、よく知られたRADIOML 2018.01Aデータセットで最先端の分類性能を達成する。
論文参考訳（メタデータ） (2022-08-31T07:26:09Z)
Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-12-23T09:33:11Z)
Multi-path Neural Networks for On-device Multi-domain Visual Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文参考訳（メタデータ） (2020-10-10T05:13:49Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)
When Residual Learning Meets Dense Aggregation: Rethinking the Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文参考訳（メタデータ） (2020-04-19T08:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。