論文の概要: Multi-Convformer: Extending Conformer with Multiple Convolution Kernels
- arxiv url: http://arxiv.org/abs/2407.03718v2
- Date: Wed, 24 Jul 2024 02:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:31:55.850641
- Title: Multi-Convformer: Extending Conformer with Multiple Convolution Kernels
- Title(参考訳): マルチコンバータ:多重畳み込みカーネルによる拡張コンバータ
- Authors: Darshan Prabhu, Yifan Peng, Preethi Jyothi, Shinji Watanabe,
- Abstract要約: 我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。
我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。
我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチをConformerとその変種と経験的に比較し、最大8%の相対的な単語誤り率(WER)の改善を示す。
- 参考スコア(独自算出の注目度): 64.4442240213399
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Convolutions have become essential in state-of-the-art end-to-end Automatic Speech Recognition~(ASR) systems due to their efficient modelling of local context. Notably, its use in Conformers has led to superior performance compared to vanilla Transformer-based ASR systems. While components other than the convolution module in the Conformer have been reexamined, altering the convolution module itself has been far less explored. Towards this, we introduce Multi-Convformer that uses multiple convolution kernels within the convolution module of the Conformer in conjunction with gating. This helps in improved modeling of local dependencies at varying granularities. Our model rivals existing Conformer variants such as CgMLP and E-Branchformer in performance, while being more parameter efficient. We empirically compare our approach with Conformer and its variants across four different datasets and three different modelling paradigms and show up to 8% relative word error rate~(WER) improvements.
- Abstract(参考訳): 畳み込みは、局所文脈の効率的なモデリングにより、最先端のエンドツーエンド自動音声認識(ASR)システムにおいて欠かせないものとなっている。
特に、コンフォーマーでの使用は、バニラトランスフォーマーベースのASRシステムよりも性能が優れている。
Conformerの畳み込みモジュール以外のコンポーネントは再検討されているが、畳み込みモジュール自体の変更は、はるかに少ない。
そこで我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。
これにより、さまざまな粒度のローカル依存関係のモデリングが改善される。
我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。
我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチとConformerとその変種を実証的に比較し、最大8%の相対的な単語エラー率~(WER)の改善を示す。
関連論文リスト
- GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - A Comparative Study on E-Branchformer vs Conformer in Speech
Recognition, Translation, and Understanding Tasks [45.01428297033315]
Conformerは畳み込み拡張トランスフォーマーであり、音声処理のためのデファクトエンコーダアーキテクチャとなっている。
最近、E-Branchformerと呼ばれる新しいエンコーダが、ASRベンチマークでConformerを上回っている。
この研究は、E-Branchformer と Conformer を比較し、様々なタイプのエンドツーエンドシーケンス・ツー・シーケンスモデルを用いて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-18T16:00:48Z) - QuadConv: Quadrature-Based Convolutions with Applications to Non-Uniform
PDE Data Compression [6.488002704957669]
私たちは、QuadConvと呼ばれるディープラーニングアーキテクチャのための新しい畳み込み層を提示します。
我々の演算子は、一様でないメッシュベースのデータに対して明示的に開発されている。
QuadConvは、一様グリッドデータ上での標準離散畳み込みの性能に適合することを示す。
論文 参考訳(メタデータ) (2022-11-09T19:02:40Z) - Branchformer: Parallel MLP-Attention Architectures to Capture Local and
Global Context for Speech Recognition and Understanding [41.928263518867816]
コンフォーマーは多くの音声処理タスクに有効であることが証明されている。
そこで我々は,より柔軟で解釈可能でカスタマイズ可能なエンコーダであるブランチフォーマーを提案する。
論文 参考訳(メタデータ) (2022-07-06T21:08:10Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - OneDConv: Generalized Convolution For Transform-Invariant Representation [76.15687106423859]
一般化された一次元畳み込み作用素(OneDConv)を提案する。
計算的かつパラメトリック的に効率的な方法で入力特徴に基づいて、畳み込みカーネルを動的に変換する。
一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を改善する。
論文 参考訳(メタデータ) (2022-01-15T07:44:44Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。