論文の概要: A Thousand Words are Worth More Than One Recording: NLP Based Speaker
Change Point Detection
- arxiv url: http://arxiv.org/abs/2006.01206v1
- Date: Mon, 18 May 2020 17:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:15:02.045287
- Title: A Thousand Words are Worth More Than One Recording: NLP Based Speaker
Change Point Detection
- Title(参考訳): 何千もの単語が1つの録音より価値がある:NLPベースの話者変化点検出
- Authors: O. H. Anidjar, C. Hajaj, A. Dvir, I. Gilad
- Abstract要約: 話者ダイアリゼーション (SD) は、入力された音声バーストを話者の身元に応じて分割または分割する。
話者数の増加とリコールとF1スコアの測定値との負の相関を実証的に示す。
話者数の問題を克服するために,新しい自然言語処理(NLP)技術に基づく堅牢な解を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker Diarization (SD) consists of splitting or segmenting an input audio
burst according to speaker identities. In this paper, we focus on the crucial
task of the SD problem which is the audio segmenting process and suggest a
solution for the Change Point Detection (CPD) problem. We empirically
demonstrate the negative correlation between an increase in the number of
speakers and the Recall and F1-Score measurements. This negative correlation is
shown to be the outcome of a massive experimental evaluation process, which
accounts its superiority to recently developed voice based solutions. In order
to overcome the number of speakers issue, we suggest a robust solution based on
a novel Natural Language Processing (NLP) technique, as well as a metadata
features extraction process, rather than a vocal based alone. To the best of
our knowledge, we are the first to propose an intelligent NLP based solution
that (I) tackles the CPD problem with a dataset in Hebrew, and (II) solves the
CPD variant of the SD problem. We empirically show, based on two distinct
datasets, that our method is abled to accurately identify the CPDs in an audio
burst with 82.12% and 89.02% of success in the Recall and F1-score
measurements.
- Abstract(参考訳): 話者ダイアリゼーション(sd)は、入力音声バーストを話者のアイデンティティに応じて分割または分割する。
本稿では,音声分割プロセスであるSD問題の重要課題に着目し,変化点検出(CPD)問題に対する解決策を提案する。
話者数の増加とリコールとF1スコアの測定値との負の相関を実証的に示す。
この負の相関は、最近開発された音声ベースのソリューションよりも優れていることを考慮し、大規模な実験的な評価プロセスの結果であることが示されている。
話者数の問題を克服するために,新しい自然言語処理(NLP)技術に基づく堅牢なソリューションを提案する。
我々は,ヘブライ語におけるデータセットを用いてCDD問題に取り組み,(II)SD問題のCDD変種を解決する知的NLPベースのソリューションを初めて提案する。
2つの異なるデータセットに基づいて,本手法が82.12%,89.02%のリコールおよびf1-score測定において,音声バースト中のcppsを正確に識別できることを実証的に示した。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Separator-Transducer-Segmenter: Streaming Recognition and Segmentation
of Multi-party Speech [9.217215329418629]
重なり合う音声による多人数会話のストリーミング認識とセグメンテーションは、次世代音声アシスタントアプリケーションにとって不可欠である。
本研究では,従来のマルチターンリカレントニューラルネットワークトランスデューサ(MT-RNN-T)における課題を,新たなアプローチであるセパレータ-トランスデューサ-セグメンタ(STS)を用いて解決する。
最良モデルでは、4.6%の abs. turn counting accuracy improve と 17% rel. word error rate (WER) improve on LibriCSS dataset than the previously published work。
論文 参考訳(メタデータ) (2022-05-10T22:40:39Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文 参考訳(メタデータ) (2022-04-02T14:47:19Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T14:39:00Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。