Fugu-MT 論文翻訳(概要): Speaker Diarization with Lexical Information

論文の概要: Speaker Diarization with Lexical Information

arxiv url: http://arxiv.org/abs/2004.06756v1
Date: Mon, 13 Apr 2020 17:16:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 00:31:07.043109
Title: Speaker Diarization with Lexical Information
Title（参考訳）: 語彙情報を用いた話者ダイアリゼーション
Authors: Tae Jin Park, Kyu J. Han, Jing Huang, Xiaodong He, Bowen Zhou, Panayiotis Georgiou and Shrikanth Narayanan
Abstract要約: 本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
参考スコア（独自算出の注目度）: 59.983797884955
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents a novel approach for speaker diarization to leverage lexical information provided by automatic speech recognition. We propose a speaker diarization system that can incorporate word-level speaker turn probabilities with speaker embeddings into a speaker clustering process to improve the overall diarization accuracy. To integrate lexical and acoustic information in a comprehensive way during clustering, we introduce an adjacency matrix integration for spectral clustering. Since words and word boundary information for word-level speaker turn probability estimation are provided by a speech recognition system, our proposed method works without any human intervention for manual transcriptions. We show that the proposed method improves diarization performance on various evaluation datasets compared to the baseline diarization system using acoustic information only in speaker embeddings.
Abstract（参考訳）: 本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。クラスタリング中の語彙情報と音響情報を包括的に統合するために,スペクトルクラスタリングのための隣接行列統合を提案する。単語レベル話者回転確率推定のための単語と単語境界情報は音声認識システムによって提供されるため,提案手法は人手による書き起こしを必要とせず動作する。提案手法は,話者埋め込みのみの音響情報を用いたベースラインダイアリゼーションシステムと比較して,各種評価データセットのダイアリゼーション性能を向上させる。

関連論文リスト

CoLMbo: Speaker Language Model for Descriptive Profiling [56.57669166980832]
話者認識システムは、しばしば分類タスクに限られ、詳細な話者特性を生成するのに苦労する。本稿では、話者エンコーダとプロンプトベースの条件付けを統合することで、これらの制約に対処する話者言語モデル(SLM)であるCoLMboを紹介する。 CoLMboはユーザ定義のプロンプトを利用して、新しい話者特性に動的に適応し、カスタマイズされた記述を提供する。
論文参考訳（メタデータ） (2025-06-11T03:50:16Z)
ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文参考訳（メタデータ） (2025-01-10T05:53:37Z)
Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文参考訳（メタデータ） (2024-09-30T19:52:10Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。 AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文参考訳（メタデータ） (2023-05-22T11:14:19Z)
Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。 Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文参考訳（メタデータ） (2023-05-18T15:59:36Z)
Controllable speech synthesis by learning discrete phoneme-level prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文参考訳（メタデータ） (2022-11-29T15:43:36Z)
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-11-28T12:51:04Z)
Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。 caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文参考訳（メタデータ） (2021-02-12T12:02:03Z)
U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文参考訳（メタデータ） (2021-02-07T18:00:09Z)
Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。重複した音声における話者カウント、音声認識、話者識別を統一する。
論文参考訳（メタデータ） (2020-06-19T02:05:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。