論文の概要: Encoder-decoder multimodal speaker change detection
- arxiv url: http://arxiv.org/abs/2306.00680v1
- Date: Thu, 1 Jun 2023 13:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:55:08.154038
- Title: Encoder-decoder multimodal speaker change detection
- Title(参考訳): エンコーダデコーダマルチモーダル話者変化検出
- Authors: Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim,
Young-ki Kwon, Minjae Lee, Bong-Jin Lee
- Abstract要約: 話者変化検出(SCD)はいくつかのアプリケーションに必須である。
音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。
本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
- 参考スコア(独自算出の注目度): 15.290910973040152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of speaker change detection (SCD), which detects points where
speakers change in an input, is essential for several applications. Several
studies solved the SCD task using audio inputs only and have shown limited
performance. Recently, multimodal SCD (MMSCD) models, which utilise text
modality in addition to audio, have shown improved performance. In this study,
the proposed model are built upon two main proposals, a novel mechanism for
modality fusion and the adoption of a encoder-decoder architecture. Different
to previous MMSCD works that extract speaker embeddings from extremely short
audio segments, aligned to a single word, we use a speaker embedding extracted
from 1.5s. A transformer decoder layer further improves the performance of an
encoder-only MMSCD model. The proposed model achieves state-of-the-art results
among studies that report SCD performance and is also on par with recent work
that combines SCD with automatic speech recognition via human transcription.
- Abstract(参考訳): 入力において話者が変化する点を検出する話者変化検出(SCD)タスクは、いくつかのアプリケーションに必須である。
いくつかの研究は音声入力のみを使用してscdタスクを解決し、限られた性能を示した。
近年,音声に加えてテキストモダリティを利用したマルチモーダルSCD(MMSCD)モデルの性能向上が報告されている。
本研究では,モダリティ融合のための新しいメカニズムとエンコーダ-デコーダアーキテクチャの採用という2つの提案に基づいて,提案モデルを構築した。
非常に短い音声セグメントから話者埋め込みを抽出する従来のMMSCDとは違って,1.5sから抽出した話者埋め込みを用いる。
トランスデコーダ層は、エンコーダのみのMSCDモデルの性能をさらに向上させる。
提案モデルでは,SCDの性能を報告した研究から最先端の成果が得られ,SCDと人間の書き起こしによる自動音声認識を組み合わせた最近の研究と同等である。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Rethinking Speech Recognition with A Multimodal Perspective via Acoustic
and Semantic Cooperative Decoding [29.80299587861207]
ASRのための音響・意味的協調デコーダ(ASCD)を提案する。
音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。
音響情報と意味情報の両方を協調的に活用することにより,ASCDは性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T13:25:44Z) - Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks [28.440232737011453]
そこで本稿では,Transducer と Attention based AED-Decoder (TAED) を組み合わせることで,音声からテキストへ変換する手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるTransducerの強度をシーケンス学習に活用する。
提案手法をtextscMuST-C データセットで評価し,TAED が Transducer よりもオフライン自動音声認識(ASR) や 音声からテキストへの変換(ST) 処理に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:34:50Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Speech enhancement aided end-to-end multi-task learning for voice
activity detection [40.44466027163059]
音声強調は音声活動検出(VAD)に役立つが、性能改善は限られている。
VADのための音声強調支援型エンドツーエンドマルチタスクモデルを提案する。
mSI-SDRは、トレーニングプロセスにおいて、VAD情報を使用して、音声強調デコーダの出力を隠蔽する。
論文 参考訳(メタデータ) (2020-10-23T15:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。