論文の概要: End-to-End Multi-Channel Transformer for Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.03951v1
- Date: Mon, 8 Feb 2021 00:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:29:47.964619
- Title: End-to-End Multi-Channel Transformer for Speech Recognition
- Title(参考訳): 音声認識用エンド・ツー・エンドマルチチャネルトランス
- Authors: Feng-Ju Chang, Martin Radfar, Athanasios Mouchtaris, Brian King, and
Siegfried Kunzmann
- Abstract要約: ニューラルトランスフォーマーアーキテクチャを多チャンネル音声認識システムに活用する。
我々のネットワークは、チャネルワイド・セルフアテンション層(CSA)、クロスチャンネルアテンション層(CCA)、マルチチャネルエンコーダ・デコーダアテンション層(EDA)の3つの部分から構成されている。
- 参考スコア(独自算出の注目度): 9.949801888214527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are powerful neural architectures that allow integrating
different modalities using attention mechanisms. In this paper, we leverage the
neural transformer architectures for multi-channel speech recognition systems,
where the spectral and spatial information collected from different microphones
are integrated using attention layers. Our multi-channel transformer network
mainly consists of three parts: channel-wise self attention layers (CSA),
cross-channel attention layers (CCA), and multi-channel encoder-decoder
attention layers (EDA). The CSA and CCA layers encode the contextual
relationship within and between channels and across time, respectively. The
channel-attended outputs from CSA and CCA are then fed into the EDA layers to
help decode the next token given the preceding ones. The experiments show that
in a far-field in-house dataset, our method outperforms the baseline
single-channel transformer, as well as the super-directive and neural
beamformers cascaded with the transformers.
- Abstract(参考訳): トランスフォーマーは、注意メカニズムを使用して異なるモダリティを統合することができる強力な神経アーキテクチャです。
本稿では,多チャンネル音声認識システムにおけるニューラルトランスフォーマーアーキテクチャを活用し,異なるマイクロホンから収集したスペクトル情報と空間情報をアテンション層を用いて統合する。
当社のマルチチャネルトランスネットワークは、主にチャネルワイズセルフアテンション層(CSA)、クロスチャネルアテンション層(CCA)、マルチチャネルエンコーダデコーダアテンション層(EDA)の3つの部分で構成されています。
CSA層とCCA層は、それぞれチャンネル内および時間間のコンテキスト関係を符号化する。
次に、CSAとCCAからのチャネル接続された出力をEDA層に供給して、前者のトークンをデコードするのを助けます。
実験により,遠距離場内データセットにおいて,本手法は,トランスを組み込んだ超指向性・ニューラルビームフォーマと同様に,ベースラインの単一チャネルトランスよりも優れていた。
関連論文リスト
- Hierarchical Transformer for Electrocardiogram Diagnosis [1.4124476944967472]
トランスフォーマーは元々NLPやコンピュータビジョンで顕著だったが、現在ではECG信号解析に適応している。
本稿では,モデルを複数のステージに分割する階層型トランスフォーマーアーキテクチャを提案する。
分類トークンは特徴尺度にまたがって情報を集約し、変換器の異なる段階間の相互作用を容易にする。
論文 参考訳(メタデータ) (2024-11-01T17:28:03Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Adaptive Channel Encoding Transformer for Point Cloud Analysis [6.90125287791398]
Transformer-Convと呼ばれるチャネル畳み込みは、チャネルをエンコードするように設計されている。
座標と特徴の間の潜在的な関係をキャプチャすることで、特徴チャネルをエンコードすることができる。
提案手法は,3つのベンチマークデータセット上での最先端のクラウド分類とセグメンテーション手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-05T08:18:00Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Learning Signal Representations for EEG Cross-Subject Channel Selection
and Trial Classification [0.3553493344868413]
脳波記録の主観非依存チャネル選択のためのアルゴリズムを提案する。
チャネル固有の1D-畳み込みニューラルネットワーク(1D-CNN)を教師付き方法で特徴抽出器として利用し、クラス分離性を最大化する。
トレーニング後、選択されたチャネル固有の1D-CNNのパラメータ化されたサブグループのみを新しい被験者からの新たな信号に転送することで、アルゴリズムを活用できる。
論文 参考訳(メタデータ) (2021-06-20T06:22:16Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - Learning from Heterogeneous EEG Signals with Differentiable Channel
Reordering [51.633889765162685]
CHARMは、一貫性のない入力チャネルをまたいだ単一のニューラルネットワークのトレーニング方法である。
我々は4つの脳波分類データセットの実験を行い、CHARMの有効性を実証した。
論文 参考訳(メタデータ) (2020-10-21T12:32:34Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。