論文の概要: Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2502.12414v1
- Date: Tue, 18 Feb 2025 01:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:12.047030
- Title: Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models
- Title(参考訳): 音声基礎モデルにおける幻覚のデミスティフィケーション
- Authors: Hanin Atwany, Abdul Waheed, Rita Singh, Monojit Choudhury, Bhiksha Raj,
- Abstract要約: 幻覚は特に医療、法務、航空などの高額な領域に関係している。
本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。
我々の研究は、ASRモデルの性能を評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
- 参考スコア(独自算出の注目度): 36.327525062842724
- License:
- Abstract: Speech foundation models trained at a massive scale, both in terms of model and data size, result in robust systems capable of performing multiple speech tasks, including automatic speech recognition (ASR). These models transcend language and domain barriers, yet effectively measuring their performance remains a challenge. Traditional metrics like word error rate (WER) and character error rate (CER) are commonly used to evaluate ASR performance but often fail to reflect transcription quality in critical contexts, particularly when detecting fabricated outputs. This phenomenon, known as hallucination, is especially concerning in high-stakes domains such as healthcare, legal, and aviation, where errors can have severe consequences. In our work, we address this gap by investigating hallucination in ASR models. We examine how factors such as distribution shifts, model size, and model architecture influence the hallucination error rate (HER), a metric we introduce to quantify hallucinations. Our analysis of 20 ASR models reveals \numinsights~key insights: (1) High WERs can mask low hallucination rates, while low WERs may conceal dangerous hallucinations. (2) Synthetic noise, both adversarial and common perturbations like white noise, pitch shift, and time stretching, increase HER. (3) Distribution shift correlates strongly with HER ($\alpha = 0.91$). Our findings highlight the importance of incorporating HER alongside traditional metrics like WER to better assess ASR model performance, particularly in high-stakes domains.
- Abstract(参考訳): モデルとデータサイズの両方において、大規模に訓練された音声基礎モデルは、自動音声認識(ASR)を含む複数の音声タスクを実行できる堅牢なシステムをもたらす。
これらのモデルが言語とドメインの障壁を越えているが、パフォーマンスを効果的に測定することは依然として困難である。
単語誤り率(WER)や文字誤り率(CER)といった従来の指標は、ASRの性能を評価するために一般的に使用されるが、特に製造された出力を検出する際には、重要な文脈における転写品質の反映に失敗することが多い。
幻覚として知られるこの現象は、特に医療、法律、航空などの高度な領域において、エラーが深刻な結果をもたらす可能性がある。
本研究では,ASRモデルにおける幻覚の研究により,このギャップに対処する。
本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。
1) 高い WER は低い幻覚率を隠蔽するが、低い WER は危険な幻覚を隠蔽する可能性がある。
2) 白色雑音, ピッチシフト, 時間伸張など, 対向的および共通の摂動による合成ノイズはHERを増加させる。
(3)分布シフトはHER(\alpha = 0.91$)と強く相関する。
我々の研究は、特に高い領域において、ASRモデルの性能をよりよく評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
関連論文リスト
- Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Hallucinations or Attention Misdirection? The Path to Strategic Value
Extraction in Business Using Large Language Models [0.0]
本稿では,真の幻覚というよりも,注意方向のミス指向を定義した。
本稿では,PGI,ペルソナ,グループ,インテリジェンスといった手法のベストプラクティスを紹介する。
論文 参考訳(メタデータ) (2024-02-21T18:40:24Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。