Fugu-MT 論文翻訳(概要): Adopting Whisper for Confidence Estimation

論文の概要: Adopting Whisper for Confidence Estimation

arxiv url: http://arxiv.org/abs/2502.13446v1
Date: Wed, 19 Feb 2025 05:45:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.855572
Title: Adopting Whisper for Confidence Estimation
Title（参考訳）: 信頼度推定にウィスパーを採用する
Authors: Vaibhav Aggarwal, Shabari S Nair, Yash Verma, Yash Jogi,
Abstract要約: 本稿では,ASRモデル自体(Whisper)を利用して単語レベルの信頼度を生成する手法を提案する。我々の実験は、サイズが強いCEMベースラインに匹敵する微調整のWhisper-tinyモデルが、ドメイン内のデータセットで同様の性能を達成し、8つのドメイン外のデータセットでCEMベースラインを上回ることを実証した。
参考スコア（独自算出の注目度）: 0.2737398629157413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research on word-level confidence estimation for speech recognition systems has primarily focused on lightweight models known as Confidence Estimation Modules (CEMs), which rely on hand-engineered features derived from Automatic Speech Recognition (ASR) outputs. In contrast, we propose a novel end-to-end approach that leverages the ASR model itself (Whisper) to generate word-level confidence scores. Specifically, we introduce a method in which the Whisper model is fine-tuned to produce scalar confidence scores given an audio input and its corresponding hypothesis transcript. Our experiments demonstrate that the fine-tuned Whisper-tiny model, comparable in size to a strong CEM baseline, achieves similar performance on the in-domain dataset and surpasses the CEM baseline on eight out-of-domain datasets, whereas the fine-tuned Whisper-large model consistently outperforms the CEM baseline by a substantial margin across all datasets.
Abstract（参考訳）: 音声認識システムにおける単語レベルの信頼度推定に関する最近の研究は、主に、自動音声認識(ASR)出力から派生した手作業による特徴に依存する、信頼度推定モジュール(CEM)と呼ばれる軽量モデルに焦点を当てている。対照的に,ASRモデル自体(Whisper)を利用して単語レベルの信頼度を生成する,新しいエンドツーエンドアプローチを提案する。具体的には、Whisperモデルを微調整し、音声入力とそれに対応する仮説書き起こしを与えられたスカラー信頼スコアを生成する方法を提案する。我々の実験では、細調整されたWhisper-tinyモデルは、サイズが強力なCEMベースラインに匹敵し、ドメイン内のデータセットで同様のパフォーマンスを達成し、8つのドメイン外のデータセットでCEMベースラインを上回っているのに対し、細調整されたWhisper-largeモデルは、すべてのデータセットでCEMベースラインをかなり上回っている。

関連論文リスト

Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文参考訳（メタデータ） (2026-02-01T02:35:59Z)
Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。 CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-12-14T12:31:28Z)
Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文参考訳（メタデータ） (2025-08-16T13:29:35Z)
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models [59.263938700476565]
我々は,AudioTrustを紹介した。Audio Large Language Models (ALLMs)のために設計された,最初の多面的信頼性評価フレームワークとベンチマークである。 AudioTrustは、公正性、幻覚、安全性、プライバシ、堅牢性、認証の6つの重要な側面にわたる評価を促進する。評価のために、ベンチマークは、9つの音響特性評価指標を慎重に設計し、大規模自動パイプラインを用いて、モデル出力の客観的かつスケーラブルなスコアリングを行う。
論文参考訳（メタデータ） (2025-05-22T04:27:46Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-09-15T06:44:26Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
A Confidence-based Partial Label Learning Model for Crowd-Annotated Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文参考訳（メタデータ） (2023-05-21T15:31:23Z)
Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文参考訳（メタデータ） (2022-12-16T20:27:40Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2021-10-07T10:44:27Z)
Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文参考訳（メタデータ） (2021-03-11T15:03:33Z)
An evaluation of word-level confidence estimation for end-to-end automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討 4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文参考訳（メタデータ） (2021-01-14T09:51:59Z)
Confidence Estimation for Attention-based Sequence-to-sequence Models for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文参考訳（メタデータ） (2020-10-22T04:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。