論文の概要: SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper
- arxiv url: http://arxiv.org/abs/2601.19194v1
- Date: Tue, 27 Jan 2026 04:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.179632
- Title: SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper
- Title(参考訳): SE-DiCoW:自己登録ダイアリゼーションウィスパー
- Authors: Alexander Polok, Dominik Klement, Samuele Cornell, Matthew Wiesner, Jan Černocký, Sanjeev Khudanpur, Lukáš Burget,
- Abstract要約: 本稿では,SE-DiCoW(Self-Enrolled Diarization-Conditioned Whisper)について紹介する。
SE-DiCoWは、EMMA MT-ASRベンチマークのオリジナルのDiCoWと比較して、マクロ平均WERを52.4%削減する。
- 参考スコア(独自算出の注目度): 54.869557393131295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker-attributed automatic speech recognition (ASR) in multi-speaker environments remains a major challenge. While some approaches achieve strong performance when fine-tuned on specific domains, few systems generalize well across out-of-domain datasets. Our prior work, Diarization-Conditioned Whisper (DiCoW), leverages speaker diarization outputs as conditioning information and, with minimal fine-tuning, demonstrated strong multilingual and multi-domain performance. In this paper, we address a key limitation of DiCoW: ambiguity in Silence-Target-Non-target-Overlap (STNO) masks, where two or more fully overlapping speakers may have nearly identical conditioning despite differing transcriptions. We introduce SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), which uses diarization output to locate an enrollment segment anywhere in the conversation where the target speaker is most active. This enrollment segment is used as fixed conditioning via cross-attention at each encoder layer. We further refine DiCoW with improved data segmentation, model initialization, and augmentation. Together, these advances yield substantial gains: SE-DiCoW reduces macro-averaged tcpWER by 52.4% relative to the original DiCoW on the EMMA MT-ASR benchmark.
- Abstract(参考訳): 多話者環境における話者分散自動音声認識(ASR)は依然として大きな課題である。
特定のドメインを微調整すると高いパフォーマンスを達成するアプローチもあるが、ドメイン外のデータセットにまたがってうまく一般化するシステムはほとんどない。
我々の先行研究であるDiarization-Conditioned Whisper (DiCoW)は、話者ダイアリゼーション出力を条件情報として活用し、最小限の微調整により、強い多言語および多ドメイン性能を示した。
本稿では,2つ以上の完全重畳話者が書き起こしが異なるにもかかわらずほぼ同じ条件を持つ場合,Silence-Target-Non-target-Overlap (STNO)マスクの曖昧さについて述べる。
本稿では,SE-DiCoW(Self-Enrolled Diarization-Conditioned Whisper)について紹介する。
この登録セグメントは、各エンコーダ層におけるクロスアテンションを介して固定条件として使用される。
改良されたデータセグメンテーション、モデル初期化、拡張によるDiCoWをさらに洗練する。
SE-DiCoWは、EMMA MT-ASRベンチマークのオリジナルのDiCoWと比較して、マクロ平均tcpWERを52.4%削減する。
関連論文リスト
- CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation [32.72685791637924]
オンラインクロスモーダル自己蒸留を行う統合アライメントフレームワークであるCORDを提案する。
具体的には、音声条件の推論とテキスト条件の推論を統一モデル内で一致させる。
複数のベンチマークにまたがる実験結果から、CORDは音声条件推論を一貫して強化することが示された。
論文 参考訳(メタデータ) (2026-01-23T08:31:24Z) - HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection [11.87055924485068]
提案手法では,標準音声活動検出モデルにおいて,いくつかの選択されたレイヤの重みを変更するためにハイパーネットワークを利用する。
これにより、VADアーキテクチャを変更することなく、話者条件付けが可能になる。
PVADの性能は一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-10-14T19:46:40Z) - High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - High-resolution embedding extractor for speaker diarisation [15.392429990363492]
本研究では,高分解能埋込抽出器(HEE)と呼ばれる新しい埋込抽出器アーキテクチャを提案する。
HEEは機能マップ抽出器とエンハンサーで構成されており、自己認識機構を備えたエンハンサーが成功の鍵となる。
4つの公開データセットを含む5つの評価セットの実験を通じて、提案したHEEは、各評価セットに対して少なくとも10%の改善を示す。
論文 参考訳(メタデータ) (2022-11-08T07:41:18Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。