論文の概要: TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement
in the Time Domain
- arxiv url: http://arxiv.org/abs/2103.09963v1
- Date: Thu, 18 Mar 2021 00:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:50:21.813316
- Title: TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement
in the Time Domain
- Title(参考訳): TSTNN:時間領域における音声強調のための2段階変換器ベースニューラルネットワーク
- Authors: Kai Wang, Bengbeng He, Wei-Ping Zhu
- Abstract要約: 提案モデルは,エンコーダ,2段変圧器モジュール(TSTM),マスキングモジュール,デコーダから構成される。
TSTMは、エンコーダ出力ステージからローカルおよびグローバル情報を効率よく抽出するために、4つの積み重ね2段変圧器ブロックを利用する。
デコーダは、拡張された音声を再構築するためにマスクエンコーダ機能を使用する。
- 参考スコア(独自算出の注目度): 13.619563427916951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a transformer-based architecture, called two-stage
transformer neural network (TSTNN) for end-to-end speech denoising in the time
domain. The proposed model is composed of an encoder, a two-stage transformer
module (TSTM), a masking module and a decoder. The encoder maps input noisy
speech into feature representation. The TSTM exploits four stacked two-stage
transformer blocks to efficiently extract local and global information from the
encoder output stage by stage. The masking module creates a mask which will be
multiplied with the encoder output. Finally, the decoder uses the masked
encoder feature to reconstruct the enhanced speech. Experimental results on the
benchmark dataset show that the TSTNN outperforms most state-of-the-art models
in time or frequency domain while having significantly lower model complexity.
- Abstract(参考訳): 本稿では,tstnn(two-stage transformer neural network)と呼ばれる,時間領域における音声のエンドツーエンド化を実現するトランスフォーマーアーキテクチャを提案する。
提案モデルは,エンコーダ,2段変圧器モジュール(TSTM),マスキングモジュール,デコーダから構成される。
エンコーダは入力ノイズ音声を特徴表現にマッピングする。
TSTMは、エンコーダ出力ステージからローカルおよびグローバル情報を効率よく抽出するために、4つの積み重ね2段変圧器ブロックを利用する。
マスクモジュールは、エンコーダ出力と乗算されるマスクを生成する。
最後に、デコーダはマスクエンコーダ機能を使用して拡張音声を再構築する。
ベンチマークデータセットによる実験結果から、TSTNNは、時間や周波数領域におけるほとんどの最先端モデルより優れ、モデルの複雑さは著しく低いことがわかった。
関連論文リスト
- MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - A Lightweight Sparse Focus Transformer for Remote Sensing Image Change Captioning [11.93705794906543]
本稿では、リモートセンシング画像変更キャプション(RSICC)タスクのためのスパースフォーカス変換器(SFT)を提案する。
提案するSFTネットワークは,スパースアテンション機構を組み込むことで,パラメータ数と計算複雑性を低減できる。
論文 参考訳(メタデータ) (2024-05-10T16:56:53Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。