論文の概要: MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions
- arxiv url: http://arxiv.org/abs/2302.11824v1
- Date: Thu, 23 Feb 2023 07:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:00:35.327316
- Title: MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions
- Title(参考訳): MossFormer: 畳み込み型単一頭部変圧器を用いたモノラル音声分離の性能限界を押し上げる
- Authors: Shengkui Zhao, Bin Ma
- Abstract要約: 畳み込み強化された自己アテンションを持つシングルヘッドゲートトランスアーキテクチャであるtextitMossFormer を提案する。
MossFormer は、WSJ0-2/3mix と WHAM!
- 参考スコア(独自算出の注目度): 26.862052778354016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer based models have provided significant performance improvements
in monaural speech separation. However, there is still a performance gap
compared to a recent proposed upper bound. The major limitation of the current
dual-path Transformer models is the inefficient modelling of long-range
elemental interactions and local feature patterns. In this work, we achieve the
upper bound by proposing a gated single-head transformer architecture with
convolution-augmented joint self-attentions, named \textit{MossFormer}
(\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former}).
To effectively solve the indirect elemental interactions across chunks in the
dual-path architecture, MossFormer employs a joint local and global
self-attention architecture that simultaneously performs a full-computation
self-attention on local chunks and a linearised low-cost self-attention over
the full sequence. The joint attention enables MossFormer model full-sequence
elemental interaction directly. In addition, we employ a powerful attentive
gating mechanism with simplified single-head self-attentions. Besides the
attentive long-range modelling, we also augment MossFormer with convolutions
for the position-wise local pattern modelling. As a consequence, MossFormer
significantly outperforms the previous models and achieves the state-of-the-art
results on WSJ0-2/3mix and WHAM!/WHAMR! benchmarks. Our model achieves the
SI-SDRi upper bound of 21.2 dB on WSJ0-3mix and only 0.3 dB below the upper
bound of 23.1 dB on WSJ0-2mix.
- Abstract(参考訳): 変圧器に基づくモデルでは、モノーラル音声分離の性能が大幅に向上した。
しかし、最近提案された上限よりもまだ性能の差がある。
現在のデュアルパストランスフォーマーモデルの主な制限は、長距離要素相互作用と局所的特徴パターンの非効率なモデリングである。
本研究では、畳み込み強化された共用自己アテンションを持つゲート型シングルヘッドトランスフォーマーアーキテクチャ(\textit{MossFormer} (\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former})を提案する。
デュアルパスアーキテクチャにおけるチャンク間の間接的要素的相互作用を効果的に解決するため、mossformerは、局所チャンクに対してフルコンピューティングのセルフアテンションと、全シーケンス上で線形化された低コストのセルフアテンションを同時に行う、ジョイントローカルおよびグローバル自己アテンションアーキテクチャを採用する。
共同注意により、MossFormerモデルの全シーケンス要素間相互作用を直接実現できる。
さらに,シングルヘッドの自己注意を簡略化した強力な注意ゲーティング機構を応用した。
注意深い長距離モデリングに加えて、位置ワイドな局所パターンモデリングのための畳み込みによるMossFormerも強化する。
その結果、MossFormerは以前のモデルを大きく上回り、WSJ0-2/3mix と WHAM!
ベンチマーク。
本モデルでは,WSJ0-3mix上のSI-SDRi上界は21.2dB,WSJ0-2mix上の上限は23.1dB以下である。
関連論文リスト
- LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre
Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。
繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。
本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文 参考訳(メタデータ) (2024-01-20T01:10:18Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Scaling Local Self-Attention For Parameter Efficient Visual Backbones [29.396052798583234]
自己注意は、パラメータ非依存のスケールとコンテンツ依存の相互作用により、コンピュータビジョンシステムを改善するという約束がある。
私たちは、ImageNet分類ベンチマークのパラメータ制限設定で最新の精度に達する新しいセルフアテンションモデルファミリー、emphHaloNetsを開発しました。
論文 参考訳(メタデータ) (2021-03-23T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。