論文の概要: Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings
- arxiv url: http://arxiv.org/abs/2508.14115v1
- Date: Mon, 18 Aug 2025 11:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.199782
- Title: Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings
- Title(参考訳): 短時間話者埋め込みを用いた複数話者の低レイテンシ追跡に向けて
- Authors: Taous Iatariene, Alexandre Guérin, Romain Serizel,
- Abstract要約: 短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
- 参考スコア(独自算出の注目度): 52.985061676464554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker embeddings are promising identity-related features that can enhance the identity assignment performance of a tracking system by leveraging its spatial predictions, i.e, by performing identity reassignment. Common speaker embedding extractors usually struggle with short temporal contexts and overlapping speech, which imposes long-term identity reassignment to exploit longer temporal contexts. However, this increases the probability of tracking system errors, which in turn impacts negatively on identity reassignment. To address this, we propose a Knowledge Distillation (KD) based training approach for short context speaker embedding extraction from two speaker mixtures. We leverage the spatial information of the speaker of interest using beamforming to reduce overlap. We study the feasibility of performing identity reassignment over blocks of fixed size, i.e., blockwise identity reassignment, to go towards a low-latency speaker embedding based tracking system. Results demonstrate that our distilled models are effective at short-context embedding extraction and more robust to overlap. Although, blockwise reassignment results indicate that further work is needed to handle simultaneous speech more effectively.
- Abstract(参考訳): 話者埋め込みは、その空間的予測、すなわち、アイデンティティ再割り当てを行うことにより、トラッキングシステムのアイデンティティ割り当て性能を向上させる、有望なアイデンティティ関連機能である。
一般的な話者埋め込み抽出器は通常、短い時間的文脈と重複する音声に苦しむ。
しかし、このことはシステムのエラーを追跡する確率を増大させ、それによってアイデンティティの再割り当てに悪影響を及ぼす。
そこで本研究では,2つの話者混合物から短文脈話者埋め込み抽出のための知識蒸留(KD)に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
ブロックワイズ・アイデンティティ・リアサインメント(ブロックワイズ・アイデンティティ・リアサインメント)という,固定サイズのブロック上でのアイデンティティ・リアサインの実現可能性について検討し,低遅延話者埋め込みに基づくトラッキングシステムに向けた。
以上の結果から, 蒸留モデルは短文埋込抽出に有効であり, 重なりやすいことが示唆された。
しかし, ブロックワイズ処理の結果から, 同時発話をより効果的に処理するには, 更なる作業が必要であることが示唆された。
関連論文リスト
- Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling [4.875137823752148]
本研究は、ターゲット話者の埋め込みを自動的に識別し、発話分離とダイアリゼーションを同時に行うための新しいアプローチを導入する。
提案モデルでは,頑健な話者表現特徴を学習するための2段階学習パイプラインを採用している。
重なり合う音声フレームにおけるダイアリゼーション精度を高めるために, 重なり合うスペクトル損失関数を提案する。
論文 参考訳(メタデータ) (2025-08-08T15:24:10Z) - Enhancing Speech Emotion Recognition Leveraging Aligning Timestamps of ASR Transcripts and Speaker Diarization [4.1088673993841685]
本稿では,自動音声認識(ASR)と話者ダイアリゼーション(SD)出力のタイムスタンプに基づくアライメントが音声感情認識(SER)精度に与える影響について検討する。
本研究では,事前学習されたASRと話者ダイアリゼーションモデルを利用したアライメントパイプラインを導入し,タイムスタンプを体系的に同期させ,正確なラベル付き話者セグメントを生成する。
論文 参考訳(メタデータ) (2025-07-25T15:05:20Z) - Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis [20.80178325643714]
生成音声システムでは、IDは自動話者検証(ASV)埋め込みを用いて評価されることが多い。
広く使われているASV埋め込みは,リズムなどの動的要素を無視しつつ,音色やピッチ範囲などの静的特徴に主眼を置いていることがわかった。
これらのギャップに対処するために、話者の動的リズムパターンを評価する指標であるU3Dを提案する。
論文 参考訳(メタデータ) (2025-07-02T22:16:42Z) - Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。
ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。
不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文 参考訳(メタデータ) (2025-06-23T13:02:20Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。