論文の概要: BERT for Joint Multichannel Speech Dereverberation with Spatial-aware
Tasks
- arxiv url: http://arxiv.org/abs/2010.10892v2
- Date: Thu, 22 Oct 2020 02:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:14:04.712350
- Title: BERT for Joint Multichannel Speech Dereverberation with Spatial-aware
Tasks
- Title(参考訳): 空間認識タスクを用いた複数チャンネル音声の同時除去のためのBERT
- Authors: Yang Jiao
- Abstract要約: 本論文では,2つの空間認識タスクを併用した複数チャンネル音声の重畳除去手法を提案する。
提案手法は,シーケンスマッピング問題に係わるタスクに対処する。
- 参考スコア(独自算出の注目度): 6.876734825043823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for joint multichannel speech dereverberation with two
spatial-aware tasks: direction-of-arrival (DOA) estimation and speech
separation. The proposed method addresses involved tasks as a sequence to
sequence mapping problem, which is general enough for a variety of front-end
speech enhancement tasks. The proposed method is inspired by the excellent
sequence modeling capability of bidirectional encoder representation from
transformers (BERT). Instead of utilizing explicit representations from
pretraining in a self-supervised manner, we utilizes transformer encoded hidden
representations in a supervised manner. Both multichannel spectral magnitude
and spectral phase information of varying length utterances are encoded.
Experimental result demonstrates the effectiveness of the proposed method.
- Abstract(参考訳): 本研究では,2つの空間認識タスク(DOA推定と音声分離)を併用したマルチチャネル音声の重畳手法を提案する。
提案手法は,様々なフロントエンド音声強調タスクに対して十分一般的なシーケンスマッピング問題として,関連するタスクに対処する。
提案手法は、変換器(BERT)からの双方向エンコーダ表現の優れたシーケンスモデリング能力に着想を得たものである。
自己教師付き方式で事前学習から明示表現を利用する代わりに,教師付き方式で隠蔽表現を符号化したトランスフォーマーを利用する。
可変長発話の多チャンネルスペクトル等級とスペクトル位相情報の両方を符号化する。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Learning from Heterogeneous EEG Signals with Differentiable Channel
Reordering [51.633889765162685]
CHARMは、一貫性のない入力チャネルをまたいだ単一のニューラルネットワークのトレーニング方法である。
我々は4つの脳波分類データセットの実験を行い、CHARMの有効性を実証した。
論文 参考訳(メタデータ) (2020-10-21T12:32:34Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Translate Reverberated Speech to Anechoic Ones: Speech Dereverberation
with BERT [6.876734825043823]
本研究では,単一チャンネル音声の残響について考察する。
自然言語処理(NLP)領域における双方向変換モデル(BERT)の成功に触発され,そのバックボーンシーケンスモデルとしての適用性を検討した。
論文 参考訳(メタデータ) (2020-07-16T00:45:27Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。