論文の概要: Collar-aware Training for Streaming Speaker Change Detection in
Broadcast Speech
- arxiv url: http://arxiv.org/abs/2205.07086v1
- Date: Sat, 14 May 2022 15:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 16:45:03.052768
- Title: Collar-aware Training for Streaming Speaker Change Detection in
Broadcast Speech
- Title(参考訳): 放送音声のストリーム話者変化検出のための協調学習
- Authors: Joonas Kalda and Tanel Alum\"ae
- Abstract要約: 本稿では,話者変化検出モデルのための新しい学習手法を提案する。
提案手法では, 対象関数を用いて, モデルが特定のカラー内の1つの正のラベルを予測できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel training method for speaker change
detection models. Speaker change detection is often viewed as a binary sequence
labelling problem. The main challenges with this approach are the vagueness of
annotated change points caused by the silences between speaker turns and
imbalanced data due to the majority of frames not including a speaker change.
Conventional training methods tackle these by artificially increasing the
proportion of positive labels in the training data. Instead, the proposed
method uses an objective function which encourages the model to predict a
single positive label within a specified collar. This is done by marginalizing
over all possible subsequences that have exactly one positive label within the
collar. Experiments on English and Estonian datasets show large improvements
over the conventional training method. Additionally, the model outputs have
peaks concentrated to a single frame, removing the need for post-processing to
find the exact predicted change point which is particularly useful for
streaming applications.
- Abstract(参考訳): 本稿では,話者変化検出モデルのための新しい学習手法を提案する。
話者変化検出は、しばしばバイナリシーケンスラベリング問題と見なされる。
このアプローチの主な課題は、話者の交代と不均衡データの間の沈黙によって生じる注釈付き変化点の曖昧さである。
従来のトレーニング方法は、トレーニングデータ中の正のラベルの割合を人工的に増加させることでこれに取り組む。
代わりに、提案手法では、モデルに指定されたカラー内の単一の正のラベルを予測するよう促す目的関数を用いる。
これは、首輪内にちょうど1つの正のラベルを持つすべての可能な部分列を周縁化することによって行われる。
英語とエストニア語のデータセットの実験は、従来の訓練方法よりも大幅に改善されている。
さらに、モデル出力は1つのフレームに集中したピークを持ち、ストリーミングアプリケーションで特に有用な正確な変更点を見つけるために、処理後の必要性をなくす。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z) - DropClass and DropAdapt: Dropping classes for deep speaker
representation learning [33.60058873783114]
本研究は,授業中にクラスをドロップするという概念に基づいて,埋め込み学習の2つのアプローチを提案する。
両手法が話者検証タスクにおいて性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-02T18:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。