論文の概要: Semantic-Aware Confidence Calibration for Automated Audio Captioning
- arxiv url: http://arxiv.org/abs/2512.10170v1
- Date: Thu, 11 Dec 2025 00:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.123822
- Title: Semantic-Aware Confidence Calibration for Automated Audio Captioning
- Title(参考訳): 自動音声キャプションのためのセマンティック・アウェア信頼度校正
- Authors: Lucas Dunker, Sai Akshay Menta, Snigdha Mohana Addepalli, Venkata Krishna Rayalu Garapati,
- Abstract要約: 本稿では,信頼度予測を音声キャプションに統合し,意味的類似性を通じて正確性を再定義するフレームワークを提案する。
以上の結果から,従来のn-gram測定値よりも,音声キャプションの信頼性校正に意味のある基礎となるセマンティックな類似性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated audio captioning models frequently produce overconfident predictions regardless of semantic accuracy, limiting their reliability in deployment. This deficiency stems from two factors: evaluation metrics based on n-gram overlap that fail to capture semantic correctness, and the absence of calibrated confidence estimation. We present a framework that addresses both limitations by integrating confidence prediction into audio captioning and redefining correctness through semantic similarity. Our approach augments a Whisper-based audio captioning model with a learned confidence prediction head that estimates uncertainty from decoder hidden states. We employ CLAP audio-text embeddings and sentence transformer similarities (FENSE) to define semantic correctness, enabling Expected Calibration Error (ECE) computation that reflects true caption quality rather than surface-level text overlap. Experiments on Clotho v2 demonstrate that confidence-guided beam search with semantic evaluation achieves dramatically improved calibration (CLAP-based ECE of 0.071) compared to greedy decoding baselines (ECE of 0.488), while simultaneously improving caption quality across standard metrics. Our results establish that semantic similarity provides a more meaningful foundation for confidence calibration in audio captioning than traditional n-gram metrics.
- Abstract(参考訳): 自動音声キャプションモデルは、意味的正確性に関係なく、しばしば自信過剰な予測を生成し、デプロイメントの信頼性を制限します。
この欠陥は、n-gramオーバーラップに基づく評価指標が意味的正当性を捉えるのに失敗することと、校正された信頼度推定がないことの2つの要因に起因している。
本稿では,音声キャプションに信頼性予測を統合し,意味的類似性による正確性を再定義することにより,両方の制約に対処するフレームワークを提案する。
提案手法は,復号器隠蔽状態から不確かさを推定する信頼度予測ヘッドを用いたWhisperベースの音声キャプションモデルを強化する。
CLAP音声テキスト埋め込みと文変換器類似性(FENSE)を用いて意味的正当性を定義し,表層テキストの重なりよりも真のキャプション品質を反映した期待校正誤差(ECE)計算を可能にする。
Clotho v2の実験では、信頼性誘導ビームサーチによるセマンティック評価により、グレディデコードベースライン(ECE:0.488)と比較して、キャリブレーション(CLAPベースのECE:0.071)が劇的に改善され、同時に標準メトリクスのキャプション品質が向上することが示された。
以上の結果から,従来のn-gram測定値よりも,音声キャプションの信頼性校正に意味のある基礎となるセマンティックな類似性が示唆された。
関連論文リスト
- Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z) - Calibrated neighborhood aware confidence measure for deep metric
learning [0.0]
深度メートル法学習は、数ショット学習、画像検索、およびオープンセット分類の問題にうまく適用されてきた。
深層学習モデルの信頼度を測定し、信頼できない予測を特定することは、まだオープンな課題です。
本稿では,その分類精度をよく反映した校正・解釈可能な信頼度尺度の定義に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-08T21:05:38Z) - Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain
Adaptive Semantic Segmentation [49.295165476818866]
本稿では、意味的セグメンテーションの文脈において、ソースドメインからターゲットドメインへの知識伝達の教師なし領域適応に焦点を当てる。
既存のアプローチでは、通常、擬似ラベルを未ラベルのターゲットドメインデータを完全に活用するための基礎的真理とみなす。
本稿では,擬似ラベル学習の修正のために,学習中の予測の不確かさを明示的に推定することを提案する。
論文 参考訳(メタデータ) (2020-03-08T12:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。