論文の概要: Careless Whisper: Speech-to-Text Hallucination Harms
- arxiv url: http://arxiv.org/abs/2402.08021v2
- Date: Fri, 3 May 2024 02:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:37:33.019830
- Title: Careless Whisper: Speech-to-Text Hallucination Harms
- Title(参考訳): 不注意なwhisper: 音声からテキストへの幻覚のハーム
- Authors: Allison Koenecke, Anna Seo Gyeong Choi, Katelyn X. Mei, Hilke Schellmann, Mona Sloane,
- Abstract要約: 我々は,最先端の音声認識サービスであるOpen AIのWhisperを評価する。
その結果、約1%の音声書き起こしが幻覚句や文全体を含んでいることがわかった。
我々はWhisperによるハロゲン化コンテンツを理論的に分析し、幻覚の38%には明示的な害が含まれていることを発見した。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-to-text services aim to transcribe input audio as accurately as possible. They increasingly play a role in everyday life, for example in personal voice assistants or in customer-company interactions. We evaluate Open AI's Whisper, a state-of-the-art automated speech recognition service outperforming industry competitors, as of 2023. While many of Whisper's transcriptions were highly accurate, we find that roughly 1\% of audio transcriptions contained entire hallucinated phrases or sentences which did not exist in any form in the underlying audio. We thematically analyze the Whisper-hallucinated content, finding that 38\% of hallucinations include explicit harms such as perpetuating violence, making up inaccurate associations, or implying false authority. We then study why hallucinations occur by observing the disparities in hallucination rates between speakers with aphasia (who have a lowered ability to express themselves using speech and voice) and a control group. We find that hallucinations disproportionately occur for individuals who speak with longer shares of non-vocal durations -- a common symptom of aphasia. We call on industry practitioners to ameliorate these language-model-based hallucinations in Whisper, and to raise awareness of potential biases amplified by hallucinations in downstream applications of speech-to-text models.
- Abstract(参考訳): 音声テキストサービスは、入力音声をできるだけ正確に書き起こすことを目的としている。
彼らは日々の生活、例えばパーソナル・ボイス・アシスタントやカスタマー・コンパニオン・インタラクションでの役割を担っている。
Open AIのWhisperは、2023年現在、業界における競合より優れた最先端の自動音声認識サービスです。
ウィスパーの書き起こしの多くは極めて正確であったが、約1\%の音声書き起こしは、基礎となる音声のいかなる形態にも存在しない全幻覚句や文を含んでいた。
我々は、Whisper-hallucinatedのコンテンツを数学的に分析し、38 %の幻覚には、暴力の永続、不正確な関係の形成、偽の権威の示唆などの明示的な害が含まれていることを発見した。
次に,失語症話者(音声と音声で自己表現する能力の低下)と対照群との幻覚率の相違を観察し,幻覚の発生について検討した。
失語症の一般的な症状である、より長い声の持続時間で話す人には幻覚が不均等に起こることがわかりました。
我々は、Whisperにおけるこれらの言語モデルに基づく幻覚を改善すること、および、音声からテキストへのモデルによる下流の応用において幻覚によって増幅される潜在的なバイアスの認識を高めることを、業界実践者に呼びかける。
関連論文リスト
- Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations [9.740345290187307]
本研究の目的は,幻覚の程度を体系的に変化させることで,幻覚の人間の知覚を理解することである。
その結果,真の内容の正しさに悪影響を及ぼすことなく,覚醒検出の精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-04-04T18:34:32Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - On the Audio Hallucinations in Large Audio-Video Language Models [2.303098021872002]
本稿では,大規模な音声・ビデオ言語モデルを用いて,音声の幻覚を抽出し,解析する。
音声情報について質問して1000の文章を収集し,幻覚を含むか否かを注釈する。
ゼロショットおよび微調整設定における事前学習音声テキストモデルを用いた音声幻覚分類の課題に取り組む。
論文 参考訳(メタデータ) (2024-01-18T07:50:07Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion [12.064177287199822]
音声変換は、言語コンテンツを保存しながら、人の声に似せて聞こえるように人の声を変更することを目的としている。
既存の手法は、内容の知性と話者の類似性の間のジレンマに悩まされる。
両世界のベストを達成できる新しい方法であるtextitPhoneme Hallucinatorを提案する。
論文 参考訳(メタデータ) (2023-08-11T20:44:19Z) - Using Mobile Data and Deep Models to Assess Auditory Verbal
Hallucinations [3.676944894021643]
聴覚幻覚の一般的な形態は、どの話者もいないときに声を聴くことである。
音声を聴くN=435名を対象に,聴覚言語幻聴の評価を行った。
論文 参考訳(メタデータ) (2023-04-20T15:37:34Z) - Probing Causes of Hallucinations in Neural Machine Translations [51.418245676894465]
本稿では,モデルアーキテクチャの観点から幻覚の原因を探索する手法を提案する。
幻覚には、しばしば欠陥のあるエンコーダ、特に埋め込み、脆弱なクロスアテンションが伴う。
論文 参考訳(メタデータ) (2022-06-25T01:57:22Z) - On Hallucination and Predictive Uncertainty in Conditional Language
Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。
認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。
提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文 参考訳(メタデータ) (2021-03-28T00:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。