論文の概要: Towards End-to-end Speaker Diarization in the Wild
- arxiv url: http://arxiv.org/abs/2211.01299v1
- Date: Wed, 2 Nov 2022 17:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:05:00.754600
- Title: Towards End-to-end Speaker Diarization in the Wild
- Title(参考訳): 野生におけるエンドツーエンド話者ダイアリゼーションに向けて
- Authors: Zexu Pan, Gordon Wichern, Fran\c{c}ois G. Germain, Aswin Subramanian,
Jonathan Le Roux
- Abstract要約: 本研究では,アトラクタをベースとしたエンド・ツー・エンド・システムは,Wildにおける記録において極めて良好に動作可能であることを示す。
また、より多くの話者を引き付けるために、注意機構を用いてネットワーク容量を増やすことを提案する。
- 参考スコア(独自算出の注目度): 34.34611592146478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization algorithms address the "who spoke when" problem in audio
recordings. Algorithms trained end-to-end have proven superior to classical
modular-cascaded systems in constrained scenarios with a small number of
speakers. However, their performance for in-the-wild recordings containing more
speakers with shorter utterance lengths remains to be investigated. In this
paper, we address this gap, showing that an attractor-based end-to-end system
can also perform remarkably well in the latter scenario when first pre-trained
on a carefully-designed simulated dataset that matches the distribution of
in-the-wild recordings. We also propose to use an attention mechanism to
increase the network capacity in decoding more speaker attractors, and to
jointly train the attractors on a speaker recognition task to improve the
speaker attractor representation. Even though the model we propose is
audio-only, we find it significantly outperforms both audio-only and
audio-visual baselines on the AVA-AVD benchmark dataset, achieving
state-of-the-art results with an absolute reduction in diarization error of
23.3%.
- Abstract(参考訳): 話者ダイアリゼーションアルゴリズムは、音声録音における「誰がいつ話したか」問題に対処する。
エンドツーエンドで訓練されたアルゴリズムは、少数の話者で制約のあるシナリオにおいて、古典的なモジュラーカスケードシステムよりも優れていることが証明されている。
しかし, より短い発声長を持つ話者を多く含む帯域内録音の性能について検討した。
本稿では,このギャップに対処し,アトラクタベースのエンド・ツー・エンド・エンド・システムでは,イン・ザ・ワイルド・レコードの分布にマッチする注意深く設計したシミュレーションデータセットを最初に事前学習した場合,後者のシナリオにおいて非常によく機能することを示す。
また、より多くの話者アトラクタをデコードする際にネットワーク容量を増加させる注意機構と、話者認識タスクでアトラクタを共同で訓練し、話者アトラクタ表現を改善することを提案する。
提案するモデルは音声のみであるが、AVA-AVDベンチマークデータセットのオーディオのみのベースラインとオーディオ視覚ベースラインの両方を著しく上回り、最先端の結果を絶対的に23.3%のダイアリゼーション誤差で達成する。
関連論文リスト
- RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues [45.095482324156606]
本稿では,複数話者の同時分離を容易にするマルチ話者分離フレームワークを提案する。
VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-07-27T09:56:23Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Leveraging Visual Supervision for Array-based Active Speaker Detection
and Localization [3.836171323110284]
簡単な音声畳み込みリカレントニューラルネットワークにより,水平型アクティブ話者検出と局所化を同時に行うことができることを示す。
本稿では,生徒の学習アプローチを取り入れた,自己指導型学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T16:53:04Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。