論文の概要: Branchformer: Parallel MLP-Attention Architectures to Capture Local and
Global Context for Speech Recognition and Understanding
- arxiv url: http://arxiv.org/abs/2207.02971v1
- Date: Wed, 6 Jul 2022 21:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 15:07:36.164590
- Title: Branchformer: Parallel MLP-Attention Architectures to Capture Local and
Global Context for Speech Recognition and Understanding
- Title(参考訳): branchformer: 音声認識と理解のためのローカルおよびグローバルコンテキストをキャプチャする並列mlp-attentionアーキテクチャ
- Authors: Yifan Peng, Siddharth Dalmia, Ian Lane, Shinji Watanabe
- Abstract要約: コンフォーマーは多くの音声処理タスクに有効であることが証明されている。
そこで我々は,より柔軟で解釈可能でカスタマイズ可能なエンコーダであるブランチフォーマーを提案する。
- 参考スコア(独自算出の注目度): 41.928263518867816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformer has proven to be effective in many speech processing tasks. It
combines the benefits of extracting local dependencies using convolutions and
global dependencies using self-attention. Inspired by this, we propose a more
flexible, interpretable and customizable encoder alternative, Branchformer,
with parallel branches for modeling various ranged dependencies in end-to-end
speech processing. In each encoder layer, one branch employs self-attention or
its variant to capture long-range dependencies, while the other branch utilizes
an MLP module with convolutional gating (cgMLP) to extract local relationships.
We conduct experiments on several speech recognition and spoken language
understanding benchmarks. Results show that our model outperforms both
Transformer and cgMLP. It also matches with or outperforms state-of-the-art
results achieved by Conformer. Furthermore, we show various strategies to
reduce computation thanks to the two-branch architecture, including the ability
to have variable inference complexity in a single trained model. The weights
learned for merging branches indicate how local and global dependencies are
utilized in different layers, which benefits model designing.
- Abstract(参考訳): conformerは多くの音声処理タスクで有効であることが証明されている。
畳み込みを使ってローカルな依存関係を抽出することの利点と、セルフアテンションを使ってグローバルな依存関係を組み合わせる。
そこで,本稿では,より柔軟で解釈可能でカスタマイズ可能なエンコーダ代替品であるbranchformerを提案する。
各エンコーダ層では、一方のブランチは長距離依存関係をキャプチャするために自己アテンションまたはその変種を使用し、もう一方のブランチは畳み込みゲーティング(cgMLP)を備えたMPPモジュールを使用して局所的な関係を抽出する。
複数の音声認識および音声言語理解ベンチマーク実験を行った。
その結果,本モデルはTransformerとcgMLPのどちらよりも優れていた。
また、Conformerが達成した最先端の結果にマッチする。
さらに,1つのトレーニングモデルにおいて変数推論の複雑さを持つ機能を含む,二分岐アーキテクチャによる計算量を削減するための様々な戦略を示す。
ブランチのマージで学んだ重みは、ローカルとグローバルの依存関係が異なるレイヤでどのように利用されるかを示している。
関連論文リスト
- Multi-Convformer: Extending Conformer with Multiple Convolution Kernels [64.4442240213399]
我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。
我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。
我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチをConformerとその変種と経験的に比較し、最大8%の相対的な単語誤り率(WER)の改善を示す。
論文 参考訳(メタデータ) (2024-07-04T08:08:12Z) - Conformer LLMs -- Convolution Augmented Large Language Models [2.8935588665357077]
この研究は、大きな言語モデル(LLM)のための2つの一般的なニューラルネットワークブロック、すなわち畳み込み層とトランスフォーマーを構築する。
トランスフォーマーデコーダは、いくつかのモダリティ上の長距離依存関係を効果的にキャプチャし、機械学習におけるモダンな進歩の中核となるバックボーンを形成する。
この研究は、大規模言語モデリングのための音声アプリケーション以外の因果的な設定で統合し、適応できる頑健な音声アーキテクチャを示す。
論文 参考訳(メタデータ) (2023-07-02T03:05:41Z) - ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency
Transform for Domain Generalization [15.057335610188545]
ドメイン・ドメイン(DG)は、再トレーニングすることなく、複数のソース・ドメインを利用する未確認のターゲット・ドメインに適切に一般化するモデルを学ぶことを目的としています。
既存のDG作品の多くは畳み込みニューラルネットワーク(CNN)に基づいている。
論文 参考訳(メタデータ) (2023-03-21T08:36:34Z) - Generic Dependency Modeling for Multi-Party Conversation [32.25605889407403]
相対的依存符号化(ReDE)の形で依存関係を符号化する手法を提案する。
自己注意の計算を改良してトランスフォーマーに実装する方法を示す。
論文 参考訳(メタデータ) (2023-02-21T13:58:19Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - ReSTR: Convolution-free Referring Image Segmentation Using Transformers [80.9672131755143]
本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-03-31T02:55:39Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Multitask Pointer Network for Multi-Representational Parsing [0.34376560669160383]
本稿では,1つのモデルをトレーニングすることにより,任意の入力文を構成木と依存木の両方で効率的に解析できる遷移ベースアプローチを提案する。
我々は2つのタスク固有のデコーダと共通エンコーダを備えたポインタネットワークアーキテクチャを開発し、それらを共同で訓練するための学習戦略に従う。
論文 参考訳(メタデータ) (2020-09-21T10:04:07Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。