論文の概要: Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio
- arxiv url: http://arxiv.org/abs/2501.11378v1
- Date: Mon, 20 Jan 2025 10:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:20:25.174809
- Title: Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio
- Title(参考訳): 非音声音声によるWhisper ASR幻覚の検討
- Authors: Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Stanisław Kacprzak, Marcin Witkowski, Konrad Kowalczyk,
- Abstract要約: 推論中に発生する非音声セグメントによって誘導されるWhisper ASRモデルの幻覚について検討する。
様々な種類の音で幻覚を誘導することにより、頻繁に現れる幻覚のセットが存在することを示す。
次に、このような音による音声の増強による幻覚について研究する。
- 参考スコア(独自算出の注目度): 15.878350948461646
- License:
- Abstract: Hallucinations of deep neural models are amongst key challenges in automatic speech recognition (ASR). In this paper, we investigate hallucinations of the Whisper ASR model induced by non-speech audio segments present during inference. By inducting hallucinations with various types of sounds, we show that there exists a set of hallucinations that appear frequently. We then study hallucinations caused by the augmentation of speech with such sounds. Finally, we describe the creation of a bag of hallucinations (BoH) that allows to remove the effect of hallucinations through the post-processing of text transcriptions. The results of our experiments show that such post-processing is capable of reducing word error rate (WER) and acts as a good safeguard against problematic hallucinations.
- Abstract(参考訳): ディープニューラルモデルの幻覚は、自動音声認識(ASR)における重要な課題の一つである。
本稿では,非音声セグメントが推論中に発生するWhisper ASRモデルの幻覚について検討する。
様々な種類の音で幻覚を誘導することにより、頻繁に現れる幻覚のセットが存在することを示す。
次に、このような音による音声の増強による幻覚について研究する。
最後に,テキストの書き起こし後処理によって幻覚の効果を除去できる幻覚袋(BoH)の作成について述べる。
実験の結果、このような後処理は単語誤り率(WER)を低減し、問題のある幻覚に対する優れた保護効果を示すことが示された。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Careless Whisper: Speech-to-Text Hallucination Harms [0.5242869847419834]
我々は,最先端の音声認識サービスであるOpen AIのWhisperを評価する。
その結果、約1%の音声書き起こしが幻覚句や文全体を含んでいることがわかった。
我々はWhisperによるハロゲン化コンテンツを理論的に分析し、幻覚の38%には明示的な害が含まれていることを発見した。
論文 参考訳(メタデータ) (2024-02-12T19:35:37Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - On Early Detection of Hallucinations in Factual Question Answering [4.76359068115052]
幻覚は依然として ユーザーの信頼を得るための大きな障害です
本研究では、モデル生成に関連するアーティファクトが、生成が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
以上の結果から,これらのアーティファクトの分布は,ハロゲン化世代と非ハロゲン化世代の違いが示唆された。
論文 参考訳(メタデータ) (2023-12-19T14:35:04Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z) - Using Mobile Data and Deep Models to Assess Auditory Verbal
Hallucinations [3.676944894021643]
聴覚幻覚の一般的な形態は、どの話者もいないときに声を聴くことである。
音声を聴くN=435名を対象に,聴覚言語幻聴の評価を行った。
論文 参考訳(メタデータ) (2023-04-20T15:37:34Z) - Probing Causes of Hallucinations in Neural Machine Translations [51.418245676894465]
本稿では,モデルアーキテクチャの観点から幻覚の原因を探索する手法を提案する。
幻覚には、しばしば欠陥のあるエンコーダ、特に埋め込み、脆弱なクロスアテンションが伴う。
論文 参考訳(メタデータ) (2022-06-25T01:57:22Z) - The Curious Case of Hallucinations in Neural Machine Translation [5.3180458405676205]
ニューラルマシン翻訳の幻覚は、NMT病理のスペクトルの極端な終わりにあります。
我々は,コーパスレベルの雑音下での幻覚について考察し,二つの顕著な自然幻覚が,特定のコーパスレベルの雑音パターンによって生成され,説明できることを示す。
バックトランスレーションやシーケンスレベルの知識蒸留といった一般的なデータ生成プロセスにおける幻覚増幅現象を解明する。
論文 参考訳(メタデータ) (2021-04-14T08:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。