Fugu-MT 論文翻訳(概要): Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

論文の概要: Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

arxiv url: http://arxiv.org/abs/2606.04680v1
Date: Wed, 03 Jun 2026 10:03:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.669948
Title: Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy
Title（参考訳）: 耳に聞こえること:音響的相違による基準自由仮説の評価
Authors: Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Xie Chen, Kai Yu,
Abstract要約: READ(Reference-free hypothesis Evaluation with Acoustic Discrepancy)は、音声信号から直接ASR仮説を評価する新しい尺度である。テキスト仮説が与えられた音声トークンの条件付き確率を計算するために、事前訓練された自己回帰的TSモデルを使用する。実験によると、READは特定の認識エラーと相関し、ASR出力を改善し、最大20%の相対誤差率の削減を達成する。
参考スコア（独自算出の注目度）: 26.09113496795663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition systems commonly rely on reference transcriptions for evaluation, while reference-free approaches often depend on internal confidence estimation or auxiliary language models. We propose READ (Reference-free Hypothesis Evaluation with Acoustic Discrepancy), a novel metric that evaluates ASR hypotheses directly from the speech signal. READ emphasizes the acoustic grounding of hypotheses. It uses a pretrained auto-regressive TTS model to compute the conditional likelihood of speech tokens given a text hypothesis, to measure fine-grained acoustic discrepancy between speech and text. Without additional training, READ can be applied for hypothesis refinement. Experiments show that READ correlates with specific recognition errors and improves ASR outputs, achieving up to 20\% relative error rate reduction, with particularly strong gains under noisy conditions.
Abstract（参考訳）: 自動音声認識システムは通常、評価のために参照書き起こしに依存するが、参照なしアプローチは内部信頼度推定や補助言語モデルに依存することが多い。音声信号から直接ASR仮説を評価する新しい尺度であるREAD(Reference-free hypothesis Evaluation with Acoustic Discrepancy)を提案する。 READは仮説の音響的接地を強調する。事前訓練された自己回帰的TSモデルを用いて、テキスト仮説が与えられた音声トークンの条件付き確率を計算し、音声とテキスト間の微細な音響的差を測定する。追加のトレーニングがなければ、READは仮説修正にも適用できる。実験により、READは特定の認識誤差と相関し、ASR出力を改善し、ノイズ条件下では特に強い利得で、最大20%の相対誤差率の削減を達成することが示された。

関連論文リスト

ReHear: Iterative Pseudo-Label Refinement for Semi-Supervised Speech Recognition via Audio Large Language Models [12.527207210862151]
ReHearは、自動音声認識における反復的な擬似ラベル改善のためのフレームワークである。命令調整されたオーディオ対応の大規模言語モデルを自己学習ループに統合する。 ReHearはエラーの伝播を効果的に軽減し、教師付きベースラインと疑似ラベルベースラインの両方を一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-21T05:04:22Z)
AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。 AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文参考訳（メタデータ） (2026-01-21T07:35:36Z)
Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文参考訳（メタデータ） (2024-06-29T17:56:28Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。 NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文参考訳（メタデータ） (2023-06-21T21:26:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。