論文の概要: A Semi-Supervised Framework for Speech Confidence Detection using Whisper
- arxiv url: http://arxiv.org/abs/2605.12387v1
- Date: Tue, 12 May 2026 16:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.030821
- Title: A Semi-Supervised Framework for Speech Confidence Detection using Whisper
- Title(参考訳): ウィスパーを用いた音声信頼度検出のための半教師付きフレームワーク
- Authors: Adam Wynn, Jingyun Wang,
- Abstract要約: 本稿では,Whisperエンコーダの深いセマンティック埋め込みを解釈可能な音響特徴ベクトルと融合する半教師付きハイブリッドフレームワークを提案する。
地盤の真理データへの依存を軽減するため,不確実性に配慮した擬似ラベル戦略を導入する。
実験の結果,提案手法はマクロF1スコアが0.751であり,自己教師付きベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 3.3994598883947496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic detection of speaker confidence is critical for adaptive computing but remains constrained by limited labelled data and the subjectivity of paralinguistic annotations. This paper proposes a semi-supervised hybrid framework that fuses deep semantic embeddings from the Whisper encoder with an interpretable acoustic feature vector composed of eGeMAPS descriptors and auxiliary probability estimates of vocal stress and disfluency. To mitigate reliance on scarce ground truth data, we introduce an Uncertainty-Aware Pseudo-Labelling strategy where a model generates labels for unlabelled data, retaining only high-quality samples for training. Experimental results demonstrate that the proposed approach achieves a Macro-F1 score of 0.751, outperforming self-supervised baselines, including WavLM, HuBERT, and Wav2Vec 2.0. The hybrid architecture also surpasses the unimodal Whisper baseline, yielding a 3\% improvement in the minority class, confirming that explicit prosodic and auxiliary features provide necessary corrective signals which are otherwise lost in deep semantic representations. Ablation studies further show that a curated set of high confidence pseudo-labels outperforms indiscriminate large scale augmentation, confirming that data quality outweighs quantity for perceived confidence detection.
- Abstract(参考訳): 話者信頼度の自動検出は適応型コンピューティングにおいて重要であるが、限定ラベル付きデータとパラ言語アノテーションの主観性によって制約されている。
本稿では、Whisperエンコーダからの深いセマンティック埋め込みを、eGeMAPS記述子と声の応力と不規則の補助確率推定からなる解釈可能な音響特徴ベクトルで融合する半教師付きハイブリッドフレームワークを提案する。
提案手法では, モデルがラベルを生成し, 高品質なサンプルのみを保持する不確かさを意識した擬似ラベル作成手法を提案する。
実験の結果,提案手法は,WavLM, HuBERT, Wav2Vec 2.0などの自己教師付きベースラインよりも優れた0.751のマクロ-F1スコアが得られることがわかった。
ハイブリッドアーキテクチャはまた、単調なWhisperベースラインを超え、マイノリティクラスでは3\%の改善をもたらし、明示的な韻律的および補助的な特徴が深い意味表現で失われるために必要な補正信号を提供することを確認した。
アブレーション研究では、高い信頼度を持つ疑似ラベルのキュレートセットが大規模増大を区別せず、データ品質が信頼度検出の量を上回ることを確認した。
関連論文リスト
- Architecture-agnostic Lipschitz-constant Bayesian header and its application to resolve semantically proximal classification errors with vision transformers [0.0]
この研究は、アーキテクチャに依存しないリプシッツ・コンスタント・ベイジアンヘッダを示し、視覚変換器のような特徴抽出器に統合することができる。
また,不確実性と不確かさを誤分類率で捉えるための新しい指標と,適応型算術・平均融合方式を提案する。
モンテカルロサンプリングにより計算コストは上昇するが、事前に訓練されたバックボーンとのプラグ・アンド・プレイの互換性を提供する。
論文 参考訳(メタデータ) (2026-05-07T09:18:06Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - Feedback-Driven Pseudo-Label Reliability Assessment: Redefining Thresholding for Semi-Supervised Semantic Segmentation [5.7977777220041204]
擬似スーパービジョンの一般的な実践は、事前に定義された信頼しきい値やエントロピーに基づいて擬似ラベルをフィルタリングすることである。
疑似ラベル選択のための動的フィードバック駆動しきい値決定手法であるEnsemble-of-Confidence Reinforcement (ENCORE)を提案する。
提案手法は,既存の擬似スーパービジョンフレームワークにシームレスに統合され,セグメンテーション性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-12T15:58:08Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - CW-BASS: Confidence-Weighted Boundary-Aware Learning for Semi-Supervised Semantic Segmentation [26.585985828583304]
半教師付きセマンティックセマンティックセグメンテーション(SSSS)は,ラベル付きサンプルを限定した大量のラベル付きデータを活用することで,パフォーマンスの向上を目指している。
既存の手法はしばしば結合に悩まされ、初期ラベル付きデータへの過度な依存は、最適以下の学習に繋がる。
SSSSの新しいフレームワークであるCW-BASSを提案する。
論文 参考訳(メタデータ) (2025-02-21T02:24:10Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。