論文の概要: Careless Whisper: Speech-to-Text Hallucination Harms
- arxiv url: http://arxiv.org/abs/2402.08021v1
- Date: Mon, 12 Feb 2024 19:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:41:08.646911
- Title: Careless Whisper: Speech-to-Text Hallucination Harms
- Title(参考訳): 不注意なwhisper: 音声からテキストへの幻覚のハーム
- Authors: Allison Koenecke, Anna Seo Gyeong Choi, Katelyn Mei, Hilke Schellmann,
Mona Sloane
- Abstract要約: 私たちはOpen AIのWhisperを評価します。
その結果、約1%の音声書き起こしが幻覚句や文全体を含んでいることがわかった。
我々はWhisperによるハロゲン化コンテンツを理論的に分析し、幻覚の38%には明示的な害が含まれていることを発見した。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-to-text services aim to transcribe input audio as accurately as
possible. They increasingly play a role in everyday life, for example in
personal voice assistants or in customer-company interactions. We evaluate Open
AI's Whisper, a state-of-the-art service outperforming industry competitors.
While many of Whisper's transcriptions were highly accurate, we found that
roughly 1% of audio transcriptions contained entire hallucinated phrases or
sentences, which did not exist in any form in the underlying audio. We
thematically analyze the Whisper-hallucinated content, finding that 38% of
hallucinations include explicit harms such as violence, made up personal
information, or false video-based authority. We further provide hypotheses on
why hallucinations occur, uncovering potential disparities due to speech type
by health status. We call on industry practitioners to ameliorate these
language-model-based hallucinations in Whisper, and to raise awareness of
potential biases in downstream applications of speech-to-text models.
- Abstract(参考訳): 音声テキストサービスは、入力音声をできるだけ正確に書き起こすことを目的としている。
彼らは日々の生活、例えばパーソナル・ボイス・アシスタントやカスタマー・コンパニオン・インタラクションでの役割を担っている。
私たちは、業界を上回っている最先端のサービスであるopen aiのwhisperを評価します。
ウィスラーの書き起こしの多くは極めて正確であったが、音声の書き起こしの約1%は幻覚的な句や文全体を含んでおり、基礎となる音声にはいかなる形態も存在しなかった。
われわれはWhisperによるコンテンツを数学的に分析し、幻覚の38%には暴力、個人情報の作成、偽ビデオベースの権威などの明確な害が含まれていることを発見した。
さらに, 幻覚がなぜ起こるのかという仮説を提示し, 健康状態による発話タイプによる潜在的な差異を明らかにする。
我々は,これらの言語モデルに基づく幻覚をささやき声で改善し,下流の音声からテキストへのモデルの応用における潜在的なバイアスに対する認識を高めるよう,業界実践者に呼びかける。
関連論文リスト
- Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations [9.740345290187307]
本研究の目的は,幻覚の程度を体系的に変化させることで,幻覚の人間の知覚を理解することである。
その結果,真の内容の正しさに悪影響を及ぼすことなく,覚醒検出の精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-04-04T18:34:32Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - On the Audio Hallucinations in Large Audio-Video Language Models [2.303098021872002]
本稿では,大規模な音声・ビデオ言語モデルを用いて,音声の幻覚を抽出し,解析する。
音声情報について質問して1000の文章を収集し,幻覚を含むか否かを注釈する。
ゼロショットおよび微調整設定における事前学習音声テキストモデルを用いた音声幻覚分類の課題に取り組む。
論文 参考訳(メタデータ) (2024-01-18T07:50:07Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion [12.064177287199822]
音声変換は、言語コンテンツを保存しながら、人の声に似せて聞こえるように人の声を変更することを目的としている。
既存の手法は、内容の知性と話者の類似性の間のジレンマに悩まされる。
両世界のベストを達成できる新しい方法であるtextitPhoneme Hallucinatorを提案する。
論文 参考訳(メタデータ) (2023-08-11T20:44:19Z) - Using Mobile Data and Deep Models to Assess Auditory Verbal
Hallucinations [3.676944894021643]
聴覚幻覚の一般的な形態は、どの話者もいないときに声を聴くことである。
音声を聴くN=435名を対象に,聴覚言語幻聴の評価を行った。
論文 参考訳(メタデータ) (2023-04-20T15:37:34Z) - Probing Causes of Hallucinations in Neural Machine Translations [51.418245676894465]
本稿では,モデルアーキテクチャの観点から幻覚の原因を探索する手法を提案する。
幻覚には、しばしば欠陥のあるエンコーダ、特に埋め込み、脆弱なクロスアテンションが伴う。
論文 参考訳(メタデータ) (2022-06-25T01:57:22Z) - On Hallucination and Predictive Uncertainty in Conditional Language
Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。
認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。
提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文 参考訳(メタデータ) (2021-03-28T00:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。