論文の概要: Probabilistic Fusion and Calibration of Neural Speaker Diarization Models
- arxiv url: http://arxiv.org/abs/2511.22696v1
- Date: Thu, 27 Nov 2025 18:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.686134
- Title: Probabilistic Fusion and Calibration of Neural Speaker Diarization Models
- Title(参考訳): ニューラルスピーカダイアリゼーションモデルの確率的融合と校正
- Authors: Juan Ignacio Alvarez-Trejos, Sergio A. Balanya, Daniel Ramos, Alicia Lozano-Diez,
- Abstract要約: 本稿では,確率レベルでのEDEモデルの校正と融合を行うための,最初の包括的枠組みを提案する。
適切なキャリブレーションが個々のモデルに対しても大幅な改善をもたらすことを示す。
我々の最高の構成は、ダウンストリームアプリケーションに不可欠な信頼性の見積を提供しながら、DERの点でDOVER-Lapよりも優れています。
- 参考スコア(独自算出の注目度): 1.3309507124779971
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-End Neural Diarization (EEND) systems produce frame-level probabilistic speaker activity estimates, yet since evaluation focuses primarily on Diarization Error Rate (DER), the reliability and calibration of these confidence scores have been largely neglected. When fusing multiple diarization systems, DOVER-Lap remains the only established approach, operating at the segment level with hard decisions. We propose working with continuous probability outputs, which enables more sophisticated calibration and fusion techniques that can leverage model uncertainty and complementary strengths across different architectures. This paper presents the first comprehensive framework for calibrating and fusing EEND models at the probability level. We investigate two output formulations (multilabel and powerset representations) and their impact on calibration and fusion effectiveness. Through extensive experiments on the CallHome two-speaker benchmark, we demonstrate that proper calibration provides substantial improvements even for individual models (up to 19% relative DER reduction), in some cases mitigating the absence of domain adaptation. We reveal that joint calibration in powerset space consistently outperforms independent per-speaker calibration, and that the Fuse-then-Calibrate ordering generally outperforms calibrating individual models before fusion while requiring calibration of only a single combined model. Our best configuration outperforms DOVER-Lap in terms of DER while providing reliable confidence estimates essential for downstream applications. This work proposes best practices for probability-level fusion of EEND systems and demonstrates the advantages of leveraging soft outputs over hard decisions.
- Abstract(参考訳): EEND(End-to-End Neural Diarization)システムはフレームレベルの確率的話者活動の推定を生成するが、評価は主にダイアリゼーション誤差率(DER)に焦点を当てているため、これらの信頼度スコアの信頼性と校正は無視されている。
複数のダイアリゼーションシステムを融合させる場合、DOVER-Lapが唯一の確立されたアプローチであり、セグメントレベルでの運用が難しい。
本稿では,モデルの不確実性と相補的強度を異なるアーキテクチャで活用できる,より洗練されたキャリブレーションと融合技術を実現するための連続確率出力を用いた手法を提案する。
本稿では,確率レベルでのEDEモデルの校正と融合を行うための,最初の包括的枠組みを提案する。
本稿では,2つの出力定式化(マルチラベルおよびパワーセット表現)とその校正および核融合効率への影響について検討する。
CallHome 2-Speakerベンチマークの広範な実験を通して、適切なキャリブレーションが個々のモデル(最大19%のDER削減)に対しても、ドメイン適応の欠如を軽減できることを示す。
パワーセット空間におけるジョイントキャリブレーションは、独立な話者ごとのキャリブレーションより一貫して優れており、Fuse-then-Calibrate順序付けは、単一のコンビネーションモデルのみのキャリブレーションを必要としながら、融合前の個々のモデルのキャリブレーションよりも一般的に優れていることを示した。
我々の最高の構成は、ダウンストリームアプリケーションに不可欠な信頼性の見積を提供しながら、DERの点でDOVER-Lapよりも優れています。
本研究は、EDEシステムの確率レベル融合のためのベストプラクティスを提案し、ハードな決定よりもソフトアウトプットを活用する利点を実証する。
関連論文リスト
- What Does It Take to Build a Performant Selective Classifier? [30.90225954725644]
ベイズノイズ,近似誤差,ランキング誤差,統計的ノイズ,実装またはシフト誘起スラックについて検討した。
我々は,合成2モードデータと実世界のビジョンと言語ベンチマークを用いて,その分解を検証した。
その結果, (i)ベイズノイズとモデル容量の制限は, 実質的なギャップを考慮し, (ii) よりリッチで特徴を考慮したキャリブレータのみを有意義に改善し, (iii) データシフトは, 分散的に堅牢なトレーニングを必要とするスラックを別々に導入することを確認した。
論文 参考訳(メタデータ) (2025-10-23T05:48:40Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Do We Still Need Non-Maximum Suppression? Accurate Confidence Estimates
and Implicit Duplication Modeling with IoU-Aware Calibration [6.093524345727119]
IoUキャリブレーションを用いることで,従来のNMSスタイルのポストプロセッシングを除去できることを示す。
IoU対応キャリブレーションは条件付きベータキャリブレーションである。
実験の結果,提案したIoUキャリブレーションは重複検出のモデル化に成功していることがわかった。
論文 参考訳(メタデータ) (2023-09-06T15:47:33Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。