論文の概要: Hallucination Benchmark for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2510.16567v1
- Date: Sat, 18 Oct 2025 16:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.042248
- Title: Hallucination Benchmark for Speech Foundation Models
- Title(参考訳): 音声基礎モデルの幻覚ベンチマーク
- Authors: Alkis Koudounas, Moreno La Quatra, Manuel Giollo, Sabato Marco Siniscalchi, Elena Baralis,
- Abstract要約: 自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
- 参考スコア(独自算出の注目度): 33.92968426403491
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hallucinations in automatic speech recognition (ASR) systems refer to fluent and coherent transcriptions produced by neural ASR models that are completely unrelated to the underlying acoustic input (i.e., the speech signal). While similar to conventional decoding errors in potentially compromising the usability of transcriptions for downstream applications, hallucinations can be more detrimental due to their preservation of syntactically and semantically plausible structure. This apparent coherence can mislead subsequent processing stages and introduce serious risks, particularly in critical domains such as healthcare and law. Conventional evaluation metrics are primarily centered on error-based metrics and fail to distinguish between phonetic inaccuracies and hallucinations. Consequently, there is a critical need for new evaluation frameworks that can effectively identify and assess models with a heightened propensity for generating hallucinated content. To this end, we introduce SHALLOW, the first benchmark framework that systematically categorizes and quantifies hallucination phenomena in ASR along four complementary axes: lexical, phonetic, morphological, and semantic. We define targeted metrics within each category to produce interpretable profiles of model behavior. Through evaluation across various architectures and speech domains, we have found that SHALLOW metrics correlate strongly with word error rate (WER) when recognition quality is high (i.e., low WER). Still, this correlation weakens substantially as WER increases. SHALLOW, therefore, captures fine-grained error patterns that WER fails to distinguish under degraded and challenging conditions. Our framework supports specific diagnosis of model weaknesses and provides feedback for model improvement beyond what aggregate error rates can offer.
- Abstract(参考訳): 自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち音声信号)とは全く無関係な神経性ASRモデルによって生成される、流動的でコヒーレントな転写を指す。
下流のアプリケーションで転写のユーザビリティを損なうような、従来のデコードエラーと同様、幻覚は、構文的にも意味的にも妥当な構造の保存により、より有害である可能性がある。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
従来の評価指標は主にエラーベースの指標に重点を置いており、音韻の不正確さと幻覚の区別に失敗している。
その結果、幻覚的コンテンツを生成するための妥当性を高めたモデルを効果的に識別し、評価できる新しい評価フレームワークが不可欠である。
そこで我々は,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
モデル行動の解釈可能なプロファイルを生成するために,各カテゴリのターゲットメトリクスを定義した。
各種アーキテクチャや音声領域における評価により, SHALLOW測定値は認識品質が高い場合の単語誤り率(WER)と強く相関していることがわかった。
しかし、この相関はWERの増加とともに著しく弱まる。
したがってSHALLOWは、WERが劣化および挑戦的な条件下で区別できないきめ細かいエラーパターンをキャプチャする。
我々のフレームワークは、モデル弱点の特定診断をサポートし、アグリゲートエラー率以上のモデル改善のためのフィードバックを提供する。
関連論文リスト
- Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder [8.239710313549466]
本研究では,ポーズ機能と3つのデータセット間のセマンティックコヒーレンスメトリクスを統合する。
重要な発見は、停止機能だけで形式的思考障害(FTD)の重症度を確実に予測できることである。
これらの結果から,時間的分析と意味的分析を組み合わせたフレームワークが,非編成音声の評価を洗練するためのロードマップを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-17T22:00:16Z) - Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models [36.327525062842724]
幻覚は特に医療、法務、航空などの高額な領域に関係している。
本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。
我々の研究は、ASRモデルの性能を評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
論文 参考訳(メタデータ) (2025-02-18T01:25:39Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Useful Blunders: Can Automated Speech Recognition Errors Improve
Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。
ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文 参考訳(メタデータ) (2024-01-10T21:38:03Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。