論文の概要: RAS: a Reliability Oriented Metric for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2604.24278v2
- Date: Tue, 28 Apr 2026 09:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.847051
- Title: RAS: a Reliability Oriented Metric for Automatic Speech Recognition
- Title(参考訳): RAS: 音声認識のための信頼性指向メトリック
- Authors: Wenbin Huang, Yuhang Qiu, Bohan Li, Yiwei Guo, Jing Peng, Hankun Wang, Xie Chen, Kai Yu,
- Abstract要約: 本稿では, ASR モデルが不確実なセグメントを明示的に排除できる,無意味なフレームワークを提案する。
本実験は、競合精度を維持しつつ、転写信頼性を大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 25.75084999899914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition systems often produce confident yet incorrect transcriptions under noisy or ambiguous conditions, which can be misleading for both users and downstream applications. Standard evaluation based on Word Error Rate focuses solely on accuracy and fails to capture transcription reliability. We introduce an abstention-aware transcription framework that enables ASR models to explicitly abstain from uncertain segments. To evaluate reliability under abstention, we propose RAS, a reliability-oriented metric that balances transcription informativeness and error aversion, with its trade-off parameter calibrated by human preference. We then train an abstention-aware ASR model through supervised bootstrapping followed by reinforcement learning. Our experiments demonstrate substantial improvements in transcription reliability while maintaining competitive accuracy.
- Abstract(参考訳): 音声認識システムは、ノイズやあいまいな条件下で、自信を持って不正確な書き起こしを生成することが多く、ユーザと下流のアプリケーションの両方で誤解を招く可能性がある。
Word Error Rateに基づく標準評価では、精度のみに焦点が当てられ、転写信頼性の取得に失敗する。
本研究では, ASR モデルが不確実なセグメントを明示的に排除できる,無意味な書き起こしフレームワークを提案する。
本研究では,人間の嗜好によって調整されたトレードオフパラメータを用いて,書き起こし情報度と誤り回避のバランスをとる信頼性指向の指標であるRASを提案する。
次に、教師付きブートストレッピングと強化学習により、留意型ASRモデルを訓練する。
本実験は、競合精度を維持しつつ、転写信頼性を大幅に改善したことを示す。
関連論文リスト
- FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Confidence-Guided Error Correction for Disordered Speech Recognition [10.275737387265321]
音声認識のための後処理モジュールとしての大規模言語モデル(LLM)について検討する。
話者とデータセット間のロバスト性や一般化を改善するために,単語レベルの不確実性推定を直接LLMトレーニングに組み込む信頼性インフォームドプロンプトを提案する。
我々はLLaMA 3.1モデルを微調整し、我々のアプローチを転写のみの微調整とポストホック信頼に基づくフィルタリングと比較する。
論文 参考訳(メタデータ) (2025-09-29T17:00:38Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces [5.266869303483375]
本研究では、エンド・ツー・エンドのASRモデルの総合的な解析により、誤り検出のための信頼度スコアの信頼性を評価する。
その結果,信頼度スコアは転写精度と相関するが,誤り検出性能は限定的であることがわかった。
これらの知見は、信頼性スコアの限界と、ASR結果のユーザインタラクションと説明可能性を改善するためのより洗練されたアプローチの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-19T11:33:40Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。