論文の概要: MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions
- arxiv url: http://arxiv.org/abs/2302.11824v1
- Date: Thu, 23 Feb 2023 07:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:00:35.327316
- Title: MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions
- Title(参考訳): MossFormer: 畳み込み型単一頭部変圧器を用いたモノラル音声分離の性能限界を押し上げる
- Authors: Shengkui Zhao, Bin Ma
- Abstract要約: 畳み込み強化された自己アテンションを持つシングルヘッドゲートトランスアーキテクチャであるtextitMossFormer を提案する。
MossFormer は、WSJ0-2/3mix と WHAM!
- 参考スコア(独自算出の注目度): 26.862052778354016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer based models have provided significant performance improvements
in monaural speech separation. However, there is still a performance gap
compared to a recent proposed upper bound. The major limitation of the current
dual-path Transformer models is the inefficient modelling of long-range
elemental interactions and local feature patterns. In this work, we achieve the
upper bound by proposing a gated single-head transformer architecture with
convolution-augmented joint self-attentions, named \textit{MossFormer}
(\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former}).
To effectively solve the indirect elemental interactions across chunks in the
dual-path architecture, MossFormer employs a joint local and global
self-attention architecture that simultaneously performs a full-computation
self-attention on local chunks and a linearised low-cost self-attention over
the full sequence. The joint attention enables MossFormer model full-sequence
elemental interaction directly. In addition, we employ a powerful attentive
gating mechanism with simplified single-head self-attentions. Besides the
attentive long-range modelling, we also augment MossFormer with convolutions
for the position-wise local pattern modelling. As a consequence, MossFormer
significantly outperforms the previous models and achieves the state-of-the-art
results on WSJ0-2/3mix and WHAM!/WHAMR! benchmarks. Our model achieves the
SI-SDRi upper bound of 21.2 dB on WSJ0-3mix and only 0.3 dB below the upper
bound of 23.1 dB on WSJ0-2mix.
- Abstract(参考訳): 変圧器に基づくモデルでは、モノーラル音声分離の性能が大幅に向上した。
しかし、最近提案された上限よりもまだ性能の差がある。
現在のデュアルパストランスフォーマーモデルの主な制限は、長距離要素相互作用と局所的特徴パターンの非効率なモデリングである。
本研究では、畳み込み強化された共用自己アテンションを持つゲート型シングルヘッドトランスフォーマーアーキテクチャ(\textit{MossFormer} (\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former})を提案する。
デュアルパスアーキテクチャにおけるチャンク間の間接的要素的相互作用を効果的に解決するため、mossformerは、局所チャンクに対してフルコンピューティングのセルフアテンションと、全シーケンス上で線形化された低コストのセルフアテンションを同時に行う、ジョイントローカルおよびグローバル自己アテンションアーキテクチャを採用する。
共同注意により、MossFormerモデルの全シーケンス要素間相互作用を直接実現できる。
さらに,シングルヘッドの自己注意を簡略化した強力な注意ゲーティング機構を応用した。
注意深い長距離モデリングに加えて、位置ワイドな局所パターンモデリングのための畳み込みによるMossFormerも強化する。
その結果、MossFormerは以前のモデルを大きく上回り、WSJ0-2/3mix と WHAM!
ベンチマーク。
本モデルでは,WSJ0-3mix上のSI-SDRi上界は21.2dB,WSJ0-2mix上の上限は23.1dB以下である。
関連論文リスト
- DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Scaling Local Self-Attention For Parameter Efficient Visual Backbones [29.396052798583234]
自己注意は、パラメータ非依存のスケールとコンテンツ依存の相互作用により、コンピュータビジョンシステムを改善するという約束がある。
私たちは、ImageNet分類ベンチマークのパラメータ制限設定で最新の精度に達する新しいセルフアテンションモデルファミリー、emphHaloNetsを開発しました。
論文 参考訳(メタデータ) (2021-03-23T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。