論文の概要: ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings
- arxiv url: http://arxiv.org/abs/2406.03251v1
- Date: Wed, 5 Jun 2024 13:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:10:52.638408
- Title: ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings
- Title(参考訳): ASoBO:会議における遠隔話者ダイアリゼーションのための注意ビームフォーマの選択
- Authors: Theo Mariotte, Anthony Larcher, Silvio Montresor, Jean-Hugh Thomas,
- Abstract要約: 話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.125756306660331
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speaker Diarization (SD) aims at grouping speech segments that belong to the same speaker. This task is required in many speech-processing applications, such as rich meeting transcription. In this context, distant microphone arrays usually capture the audio signal. Beamforming, i.e., spatial filtering, is a common practice to process multi-microphone audio data. However, it often requires an explicit localization of the active source to steer the filter. This paper proposes a self-attention-based algorithm to select the output of a bank of fixed spatial filters. This method serves as a feature extractor for joint Voice Activity (VAD) and Overlapped Speech Detection (OSD). The speaker diarization is then inferred from the detected segments. The approach shows convincing distant VAD, OSD, and SD performance, e.g. 14.5% DER on the AISHELL-4 dataset. The analysis of the self-attention weights demonstrates their explainability, as they correlate with the speaker's angular locations.
- Abstract(参考訳): 話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
このタスクは、リッチミーティングの書き起こしなど、多くの音声処理アプリケーションで必要とされる。
この文脈では、遠方のマイクロフォンアレイは通常、オーディオ信号をキャプチャする。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
しかし、フィルタを操るためにはアクティブなソースを明示的にローカライズする必要があることが多い。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
共同音声活動(VAD)とオーバーラップ音声検出(OSD)のための特徴抽出器として機能する。
そして、検出されたセグメントから話者ダイアリゼーションを推定する。
このアプローチは、AISHELL-4データセット上の14.5%DERなど、遠くのVAD、OSD、SDのパフォーマンスを説得できることを示している。
自己注意重みの分析は、話者の角の位置と相関するため、その説明可能性を示している。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism [45.90677498529653]
選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
論文 参考訳(メタデータ) (2023-10-16T15:19:05Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Joint speaker diarisation and tracking in switching state-space model [51.58295550366401]
本稿では,統合モデル内で共同でダイアリゼーションを行いながら,話者の動きを明示的に追跡することを提案する。
隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。
Microsoftリッチミーティングの書き起こしタスクの実験は、提案された共同位置追跡とダイアリゼーションアプローチが、位置情報を使用する他の方法と相容れない性能を発揮することを示している。
論文 参考訳(メタデータ) (2021-09-23T04:43:58Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Speakerfilter-Pro: an improved target speaker extractor combines the
time domain and frequency domain [28.830492233611196]
本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。
Speakerfilterは、双方向ゲートリカレントユニット(BGRU)モジュールを使用して、ターゲット話者をアンカー音声から特徴付け、畳み込みリカレントネットワーク(CRN)モジュールを使用して、ターゲット話者をノイズ信号から分離する。
WaveUNetは、時間領域で音声分離を行うのにより良い能力があることが証明されている。
論文 参考訳(メタデータ) (2020-10-25T07:30:30Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。