論文の概要: Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation
- arxiv url: http://arxiv.org/abs/2509.14632v1
- Date: Thu, 18 Sep 2025 05:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.076957
- Title: Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation
- Title(参考訳): スタイル制御可能な音声拡張によるダイアリゼーションにおける話者内変動の緩和
- Authors: Miseul Kim, Soo Jin Park, Kyungguen Byun, Hyeon-Kyeong Shin, Sunkuk Moon, Shuhua Zhang, Erik Visser,
- Abstract要約: 多様なスタイルで音声を増強するスタイル制御可能な音声生成モデルを提案する。
提案システムは,従来のダイアリザのダイアリゼーションセグメントから開始する。
オリジナルのオーディオと生成されたオーディオの両方からの話者埋め込みは、システムの堅牢性を高めるためにブレンドされる。
- 参考スコア(独自算出の注目度): 6.289152035711056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization systems often struggle with high intrinsic intra-speaker variability, such as shifts in emotion, health, or content. This can cause segments from the same speaker to be misclassified as different individuals, for example, when one raises their voice or speaks faster during conversation. To address this, we propose a style-controllable speech generation model that augments speech across diverse styles while preserving the target speaker's identity. The proposed system starts with diarized segments from a conventional diarizer. For each diarized segment, it generates augmented speech samples enriched with phonetic and stylistic diversity. And then, speaker embeddings from both the original and generated audio are blended to enhance the system's robustness in grouping segments with high intrinsic intra-speaker variability. We validate our approach on a simulated emotional speech dataset and the truncated AMI dataset, demonstrating significant improvements, with error rate reductions of 49% and 35% on each dataset, respectively.
- Abstract(参考訳): 話者ダイアリゼーションシステムは、感情、健康、内容の変化など、内在性の高い話者内変動に苦しむことが多い。
これは、例えば、会話中に声を上げたり、より速く話すときに、同じ話者のセグメントが、異なる個人として誤分類される可能性がある。
そこで本研究では,対象話者の身元を保ちながら,多様なスタイルにわたる音声を増強する,スタイル制御可能な音声生成モデルを提案する。
提案システムは,従来のダイアリザのダイアリゼーションセグメントから開始する。
各ダイアリゼーションセグメントに対して、音声とスタイルの多様性に富んだ拡張音声サンプルを生成する。
そして、元のオーディオと生成されたオーディオの両方からの話者埋め込みをブレンドして、本質的な話者内変動度の高いグループ化セグメントにおけるシステムの堅牢性を高める。
シミュレーションされた感情音声データセットと乱れたAMIデータセットに対するアプローチの有効性を検証し,各データセットの誤り率を49%,35%削減した。
関連論文リスト
- Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis [20.80178325643714]
生成音声システムでは、IDは自動話者検証(ASV)埋め込みを用いて評価されることが多い。
広く使われているASV埋め込みは,リズムなどの動的要素を無視しつつ,音色やピッチ範囲などの静的特徴に主眼を置いていることがわかった。
これらのギャップに対処するために、話者の動的リズムパターンを評価する指標であるU3Dを提案する。
論文 参考訳(メタデータ) (2025-07-02T22:16:42Z) - Improving speaker verification robustness with synthetic emotional utterances [14.63248006004598]
話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。
従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。
この問題は、ラベル付き感情音声データの利用が限られていることに起因している。
本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-11-30T02:18:26Z) - We Need Variations in Speech Generation: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
本稿では,学習中に話者単位の複数のサブセンタを利用する新しい話者埋め込みネットワークを提案する。
このサブセンターモデリングにより、埋め込みは話者分類性能を維持しながら、幅広い話者固有のバリエーションを捉えることができる。
論文 参考訳(メタデータ) (2024-07-05T06:54:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Cross-speaker style transfer for text-to-speech using data augmentation [11.686745250628247]
音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。
対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。
提案した技術を、7つの言語にまたがる14の話者のセットにスケールすることで、結論付けます。
論文 参考訳(メタデータ) (2022-02-10T15:10:56Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。