論文の概要: BeamTransformer: Microphone Array-based Overlapping Speech Detection
- arxiv url: http://arxiv.org/abs/2109.04049v1
- Date: Thu, 9 Sep 2021 06:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 05:06:00.390411
- Title: BeamTransformer: Microphone Array-based Overlapping Speech Detection
- Title(参考訳): Beam Transformer:マイクロホンアレイによる重畳音声検出
- Authors: Siqi Zheng, Shiliang Zhang, Weilong Huang, Qian Chen, Hongbin Suo,
Ming Lei, Jinwei Feng, Zhijie Yan
- Abstract要約: BeamTransformerは、異なる空間方向からの信号間の逐次関係のモデリングを最適化することを目指している。
ビームトランスフォーマーは、異なるビームシーケンス間の関係を識別するために学習において超越する。
BeamTransformerはさらに一歩前進し、重なり合うスピーカーからの音声は、内部的に異なるビームに分離されている。
- 参考スコア(独自算出の注目度): 52.11665331754917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose BeamTransformer, an efficient architecture to leverage
beamformer's edge in spatial filtering and transformer's capability in context
sequence modeling. BeamTransformer seeks to optimize modeling of sequential
relationship among signals from different spatial direction. Overlapping speech
detection is one of the tasks where such optimization is favorable. In this
paper we effectively apply BeamTransformer to detect overlapping segments.
Comparing to single-channel approach, BeamTransformer exceeds in learning to
identify the relationship among different beam sequences and hence able to make
predictions not only from the acoustic signals but also the localization of the
source. The results indicate that a successful incorporation of microphone
array signals can lead to remarkable gains. Moreover, BeamTransformer takes one
step further, as speech from overlapped speakers have been internally separated
into different beams.
- Abstract(参考訳): 本研究では,空間フィルタリングにおけるbeamformerのエッジとコンテキストシーケンスモデリングにおけるtransformerの能力を活用する効率的なアーキテクチャであるbeamtransformerを提案する。
beamtransformerは、異なる空間方向からの信号間のシーケンシャルな関係のモデリングを最適化することを目指している。
重なり合う音声検出は、そのような最適化が好ましいタスクの1つである。
本稿では,重なりセグメントの検出にビームトランスフォーマを効果的に適用する。
単一チャネルアプローチと比較して、ビームトランスフォーマーは、異なるビームシーケンス間の関係を識別する学習を超越し、音響信号だけでなくソースの局所化からも予測を行うことができる。
その結果,マイクロホンアレイ信号の導入が成功すれば,顕著な利得が得られることがわかった。
さらにbeamtransformerはさらに一歩進んでおり、重複する話者からの音声は内部で異なるビームに分離されている。
関連論文リスト
- A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - Sionna RT: Differentiable Ray Tracing for Radio Propagation Modeling [65.17711407805756]
Sionnaは、リンクレベルのシミュレーションをベースとしたGPUアクセラレーションのオープンソースライブラリである。
リリース v0.14 以降、電波伝搬のシミュレーションのために微分可能なレイトレーサ (RT) を統合している。
論文 参考訳(メタデータ) (2023-03-20T13:40:11Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - A Deep-Bayesian Framework for Adaptive Speech Duration Modification [20.99099283004413]
我々はベイズフレームワークを用いて、入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
マスク付き畳み込みエンコーダ・デコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数のバージョンで生成する。
提案手法は,最先端のボコーダに匹敵する高い品質の音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-07-11T05:53:07Z) - BERT for Joint Multichannel Speech Dereverberation with Spatial-aware
Tasks [6.876734825043823]
本論文では,2つの空間認識タスクを併用した複数チャンネル音声の重畳除去手法を提案する。
提案手法は,シーケンスマッピング問題に係わるタスクに対処する。
論文 参考訳(メタデータ) (2020-10-21T11:05:17Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Transformer with Bidirectional Decoder for Speech Recognition [32.56014992915183]
異なる方向の文脈を同時に利用する双方向音声変換器を提案する。
具体的には、提案した変換器の出力には、左から右への目標と右から左への目標が含まれる。
推論段階では、左右の候補を生成でき、左右の候補を生成できる双方向ビームサーチ方式を用いる。
論文 参考訳(メタデータ) (2020-08-11T02:12:42Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。