論文の概要: Dual-branch Attention-In-Attention Transformer for single-channel speech
enhancement
- arxiv url: http://arxiv.org/abs/2110.06467v1
- Date: Wed, 13 Oct 2021 03:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 02:05:10.944761
- Title: Dual-branch Attention-In-Attention Transformer for single-channel speech
enhancement
- Title(参考訳): 単チャネル音声強調用デュアルブランチアテンションイン・アテンショントランス
- Authors: Guochen Yu, Andong Li, Yutian Wang, Yinuo Guo, Hui Wang, Chengshi
Zheng
- Abstract要約: スペクトルの粗い領域ときめ細かい領域を並列に扱うために,DB-AIATと呼ばれる2分岐アテンション変換器を提案する。
本稿では,従来のRNNと時間的畳み込みネットワークを置き換え,時間的シーケンスモデリングのための新しいアテンション・イン・アテンション・トランスフォーマー・ベース・モジュールを提案する。
- 参考スコア(独自算出の注目度): 6.894606865794746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curriculum learning begins to thrive in the speech enhancement area, which
decouples the original spectrum estimation task into multiple easier sub-tasks
to achieve better performance. Motivated by that, we propose a dual-branch
attention-in-attention transformer dubbed DB-AIAT to handle both coarse- and
fine-grained regions of the spectrum in parallel. From a complementary
perspective, a magnitude masking branch is proposed to coarsely estimate the
overall magnitude spectrum, and simultaneously a complex refining branch is
elaborately designed to compensate for the missing spectral details and
implicitly derive phase information. Within each branch, we propose a novel
attention-in-attention transformer-based module to replace the conventional
RNNs and temporal convolutional networks for temporal sequence modeling.
Specifically, the proposed attention-in-attention transformer consists of
adaptive temporal-frequency attention transformer blocks and an adaptive
hierarchical attention module, aiming to capture long-term temporal-frequency
dependencies and further aggregate global hierarchical contextual information.
Experimental results on Voice Bank + DEMAND demonstrate that DB-AIAT yields
state-of-the-art performance (e.g., 3.31 PESQ, 94.7% STOI and 10.79dB SSNR)
over previous advanced systems with a relatively small model size (2.81M).
- Abstract(参考訳): カリキュラム学習は、元のスペクトル推定タスクを複数の簡単なサブタスクに分解し、よりよいパフォーマンスを達成する、音声強調領域で成長し始める。
そこで本研究では,DB-AIATと呼ばれる2分岐アテンション・イン・アテンション・トランスフォーマを提案し,スペクトルの粗い領域と細粒領域を並列に処理する。
相補的な観点からは、全体等級スペクトルを粗大に推定する等級マスキング枝を提案し、同時に、欠落したスペクトルの詳細を補うために複雑な精錬枝を精巧に設計し、暗黙的に位相情報を導出する。
各分野において,従来のrnnと時相畳み込みネットワークを置き換え,時間系列モデリングを行うための注意インテンション・イン・アテンション・トランスフォーマティブ・モジュールを提案する。
具体的には,長期間の時間-周波数依存性を捉え,さらにグローバル階層的コンテキスト情報を集約することを目的とした,適応型時間-周波数間注意トランスブロックと適応型階層的注意モジュールから構成される。
Voice Bank + DEMANDの実験結果は、DB-AIATが比較的小さなモデルサイズ(2.81M)の以前の先進的なシステムよりも最先端の性能(例えば3.31 PESQ, 94.7% STOI, 10.79dB SSNR)が得られることを示した。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Frequency-Adaptive Dilated Convolution for Semantic Segmentation [14.066404173580864]
本稿では、スペクトル分析の観点から、拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。
周波数適応型拡張畳み込み(FADC)を導入し、局所周波数成分に基づいて空間的に拡散率を調整する。
2つのプラグインモジュールを設計し、有効帯域幅と受容フィールドサイズを直接的に拡張する。
論文 参考訳(メタデータ) (2024-03-08T15:00:44Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。