論文の概要: Calm-Whisper: Reduce Whisper Hallucination On Non-Speech By Calming Crazy Heads Down
- arxiv url: http://arxiv.org/abs/2505.12969v1
- Date: Mon, 19 May 2025 11:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.549222
- Title: Calm-Whisper: Reduce Whisper Hallucination On Non-Speech By Calming Crazy Heads Down
- Title(参考訳): Calm-Whisper:クレージーヘッドをカミングダウンすることで、非音声でWhisperの幻覚を和らげる
- Authors: Yingzhi Wang, Anas Alhmoud, Saad Alsahly, Muhammad Alqurishi, Mirco Ravanelli,
- Abstract要約: 本稿では,非音声セグメントにおけるWhisperの幻覚を軽減する手法を提案する。
本稿では,Whisper-large-v3デコーダにおける各自己注意頭部の幻覚への寄与を,頭部マスクを用いて評価する。
我々の最高の微調整モデルであるCalm-Whisperは、0.1% WER未満の非音声幻覚の80%以上を減少させる。
- 参考スコア(独自算出の注目度): 9.098293248868503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OpenAI's Whisper has achieved significant success in Automatic Speech Recognition. However, it has consistently been found to exhibit hallucination issues, particularly in non-speech segments, which limits its broader application in complex industrial settings. In this paper, we introduce a novel method to reduce Whisper's hallucination on non-speech segments without using any pre- or post-possessing techniques. Specifically, we benchmark the contribution of each self-attentional head in the Whisper-large-v3 decoder to the hallucination problem by performing a head-wise mask. Our findings reveal that only 3 of the 20 heads account for over 75% of the hallucinations on the UrbanSound dataset. We then fine-tune these three crazy heads using a collection of non-speech data. The results show that our best fine-tuned model, namely Calm-Whisper, achieves over 80% reduction in non-speech hallucination with only less than 0.1% WER degradation on LibriSpeech test-clean and test-other.
- Abstract(参考訳): OpenAIのWhisperは自動音声認識において大きな成功を収めた。
しかし、特に非音声セグメントでは、複雑な産業環境での幅広い応用を制限する幻覚の問題を常に示している。
本稿では,非音声セグメントにおけるWhisperの幻覚を軽減する手法を提案する。
具体的には,Whisper-large-v3デコーダにおける各自己注意頭部の幻覚への寄与を,頭部マスクを用いてベンチマークする。
以上の結果から,UrbanSoundデータセットの幻覚は,20頭中3頭のみが75%以上を占めることがわかった。
そして、音声以外のデータを使って、この3つの狂った頭を微調整する。
以上の結果から,LibriSpeechテストクリーンおよびテストクリーンを0.1% WER程度で劣化させることなく,非音声幻覚の80%以上を低減できることが示唆された。
関連論文リスト
- Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio [15.878350948461646]
推論中に発生する非音声セグメントによって誘導されるWhisper ASRモデルの幻覚について検討する。
様々な種類の音で幻覚を誘導することにより、頻繁に現れる幻覚のセットが存在することを示す。
次に、このような音による音声の増強による幻覚について研究する。
論文 参考訳(メタデータ) (2025-01-20T10:14:52Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Mitigating Object Hallucination in MLLMs via Data-augmented Phrase-level Alignment [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Whispers that Shake Foundations: Analyzing and Mitigating False Premise
Hallucinations in Large Language Models [20.025123325871835]
大規模言語モデル(LLM)は、誤った前提問題に直面した時に幻覚テキストを生成する。
疑似前提幻覚を緩和するための新しい効果的な方法であるtextbfFAITH(textbfFalse premises textbfAttention head constratextbfIining for mitextbfTigating textbfHallucinations)を提案する。
論文 参考訳(メタデータ) (2024-02-29T12:35:45Z) - Careless Whisper: Speech-to-Text Hallucination Harms [0.5242869847419834]
我々は,最先端の音声認識サービスであるOpen AIのWhisperを評価する。
その結果、約1%の音声書き起こしが幻覚句や文全体を含んでいることがわかった。
我々はWhisperによるハロゲン化コンテンツを理論的に分析し、幻覚の38%には明示的な害が含まれていることを発見した。
論文 参考訳(メタデータ) (2024-02-12T19:35:37Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Using Mobile Data and Deep Models to Assess Auditory Verbal
Hallucinations [3.676944894021643]
聴覚幻覚の一般的な形態は、どの話者もいないときに声を聴くことである。
音声を聴くN=435名を対象に,聴覚言語幻聴の評価を行った。
論文 参考訳(メタデータ) (2023-04-20T15:37:34Z) - End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文 参考訳(メタデータ) (2020-05-05T07:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。