論文の概要: Sortformer: A Novel Approach for Permutation-Resolved Speaker Supervision in Speech-to-Text Systems
- arxiv url: http://arxiv.org/abs/2409.06656v3
- Date: Sat, 19 Jul 2025 18:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:31.096887
- Title: Sortformer: A Novel Approach for Permutation-Resolved Speaker Supervision in Speech-to-Text Systems
- Title(参考訳): Sortformer:音声テキストシステムにおける置換解話者スーパービジョンの新しいアプローチ
- Authors: Taejin Park, Ivan Medennikov, Kunal Dhawan, Weiqing Wang, He Huang, Nithin Rao Koluguri, Krishna C. Puvvada, Jagadeesh Balam, Boris Ginsburg,
- Abstract要約: Sortformer はエンコーダに基づく話者ダイアリゼーションモデルであり、音声-テキストモデルにおける話者タグ付けを監督する。
本稿では,Soltformer を利用したマルチ話者音声合成アーキテクチャを提案する。
コードとトレーニングされたモデルはNVIDIA NeMo Frameworkを通じて公開されている。
- 参考スコア(独自算出の注目度): 27.08293218877395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sortformer is an encoder-based speaker diarization model designed for supervising speaker tagging in speech-to-text models. Instead of relying solely on permutation invariant loss (PIL), Sortformer introduces Sort Loss to resolve the permutation problem, either independently or in tandem with PIL. In addition, we propose a streamlined multi-speaker speech-to-text architecture that leverages Sortformer for speaker supervision, embedding speaker labels into the encoder using sinusoidal kernel functions. This design addresses the speaker permutation problem through sorted objectives, effectively bridging timestamps and tokens to supervise speaker labels in the output transcriptions. Experiments demonstrate that Sort Loss can boost speaker diarization performance, and incorporating the speaker supervision from Sortformer improves multi-speaker transcription accuracy. We anticipate that the proposed Sortformer and multi-speaker architecture will enable the seamless integration of speaker tagging capabilities into foundational speech-to-text systems and multimodal large language models (LLMs), offering an easily adoptable and user-friendly mechanism to enhance their versatility and performance in speaker-aware tasks. The code and trained models are made publicly available through the NVIDIA NeMo Framework.
- Abstract(参考訳): Sortformer はエンコーダベースの話者ダイアリゼーションモデルであり、音声-テキストモデルにおける話者タグ付けを監督するために設計されている。
Sortformerは、置換不変損失(PIL)にのみ依存するのではなく、Solt Lossを導入して、置換問題を独立に、あるいはPILと接して解決する。
さらに,Soltformer を利用したマルチ話者音声合成アーキテクチャを提案し,Sortformer を利用した話者ラベルを正弦波カーネル関数を用いてエンコーダに埋め込む。
この設計では、話者置換問題をソートされた目的によって解決し、タイムスタンプとトークンを効果的にブリッジし、出力された文字の話者ラベルを監督する。
実験により、Srt Lossは話者ダイアリゼーション性能を向上し、Srtformerの話者監督を取り入れることで、マルチスピーカの転写精度が向上することが示された。
提案したSortformerとマルチスピーカアーキテクチャは,話者タグ付け機能を基本的な音声-テキストシステムとマルチモーダル大言語モデル(LLM)にシームレスに統合し,話者認識タスクにおける汎用性と性能を高めるための,使い易くユーザフレンドリなメカニズムを提供することを期待する。
コードとトレーニングされたモデルはNVIDIA NeMo Frameworkを通じて公開されている。
関連論文リスト
- Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。
KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。
UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T00:47:29Z) - From Modular to End-to-End Speaker Diarization [3.079020586262228]
本稿では、VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)をクラスタリングするために使用されるベイズ隠れマルコフモデルに基づくシステムについて述べる。
本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。
本稿では,この「模擬会話」生成手法が,一般的なEENDのトレーニングにおいて,従来提案されていた「模擬混合」生成方法よりも優れた性能を実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-27T15:09:39Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Voice Conversion Based Speaker Normalization for Acoustic Unit Discovery [3.128267020893596]
単位発見に先立って教師なし話者正規化手法を提案する。
対比的コントラスト予測符号化手法を用いて、音声信号のコンテンツ誘起変化から話者に関連する話者を切り離すことを基本とする。
英語,Yoruba,Mboshiの実験では,非正規化入力と比較して改善が見られた。
論文 参考訳(メタデータ) (2021-05-04T22:40:41Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。