Fugu-MT 論文翻訳(概要): Careless Whisper: Speech-to-Text Hallucination Harms

論文の概要: Careless Whisper: Speech-to-Text Hallucination Harms

arxiv url: http://arxiv.org/abs/2402.08021v1
Date: Mon, 12 Feb 2024 19:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:41:08.646911
Title: Careless Whisper: Speech-to-Text Hallucination Harms
Title（参考訳）: 不注意なwhisper: 音声からテキストへの幻覚のハーム
Authors: Allison Koenecke, Anna Seo Gyeong Choi, Katelyn Mei, Hilke Schellmann, Mona Sloane
Abstract要約: 私たちはOpen AIのWhisperを評価します。その結果、約1%の音声書き起こしが幻覚句や文全体を含んでいることがわかった。我々はWhisperによるハロゲン化コンテンツを理論的に分析し、幻覚の38%には明示的な害が含まれていることを発見した。
参考スコア（独自算出の注目度）: 0.562479170374811
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speech-to-text services aim to transcribe input audio as accurately as possible. They increasingly play a role in everyday life, for example in personal voice assistants or in customer-company interactions. We evaluate Open AI's Whisper, a state-of-the-art service outperforming industry competitors. While many of Whisper's transcriptions were highly accurate, we found that roughly 1% of audio transcriptions contained entire hallucinated phrases or sentences, which did not exist in any form in the underlying audio. We thematically analyze the Whisper-hallucinated content, finding that 38% of hallucinations include explicit harms such as violence, made up personal information, or false video-based authority. We further provide hypotheses on why hallucinations occur, uncovering potential disparities due to speech type by health status. We call on industry practitioners to ameliorate these language-model-based hallucinations in Whisper, and to raise awareness of potential biases in downstream applications of speech-to-text models.
Abstract（参考訳）: 音声テキストサービスは、入力音声をできるだけ正確に書き起こすことを目的としている。彼らは日々の生活、例えばパーソナル・ボイス・アシスタントやカスタマー・コンパニオン・インタラクションでの役割を担っている。私たちは、業界を上回っている最先端のサービスであるopen aiのwhisperを評価します。ウィスラーの書き起こしの多くは極めて正確であったが、音声の書き起こしの約1%は幻覚的な句や文全体を含んでおり、基礎となる音声にはいかなる形態も存在しなかった。われわれはWhisperによるコンテンツを数学的に分析し、幻覚の38%には暴力、個人情報の作成、偽ビデオベースの権威などの明確な害が含まれていることを発見した。さらに, 幻覚がなぜ起こるのかという仮説を提示し, 健康状態による発話タイプによる潜在的な差異を明らかにする。我々は,これらの言語モデルに基づく幻覚をささやき声で改善し,下流の音声からテキストへのモデルの応用における潜在的なバイアスに対する認識を高めるよう,業界実践者に呼びかける。

関連論文リスト

Calm-Whisper: Reduce Whisper Hallucination On Non-Speech By Calming Crazy Heads Down [9.098293248868503]
本稿では,非音声セグメントにおけるWhisperの幻覚を軽減する手法を提案する。本稿では,Whisper-large-v3デコーダにおける各自己注意頭部の幻覚への寄与を,頭部マスクを用いて評価する。我々の最高の微調整モデルであるCalm-Whisperは、0.1% WER未満の非音声幻覚の80%以上を減少させる。
論文参考訳（メタデータ） (2025-05-19T11:04:52Z)
Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio [15.878350948461646]
推論中に発生する非音声セグメントによって誘導されるWhisper ASRモデルの幻覚について検討する。様々な種類の音で幻覚を誘導することにより、頻繁に現れる幻覚のセットが存在することを示す。次に、このような音による音声の増強による幻覚について研究する。
論文参考訳（メタデータ） (2025-01-20T10:14:52Z)
Verb Mirage: Unveiling and Assessing Verb Concept Hallucinations in Multimodal Large Language Models [51.50892380172863]
その結果,ほとんどのMLLMは重度の動詞幻覚に悩まされていることがわかった。本稿では,動詞の幻覚を軽減するために,動詞の知識に基づく新しいチューニング手法を提案する。
論文参考訳（メタデータ） (2024-12-06T10:53:47Z)
Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文参考訳（メタデータ） (2024-05-28T23:36:00Z)
Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations [9.740345290187307]
本研究の目的は,幻覚の程度を体系的に変化させることで,幻覚の人間の知覚を理解することである。その結果,真の内容の正しさに悪影響を及ぼすことなく,覚醒検出の精度が向上することが確認された。
論文参考訳（メタデータ） (2024-04-04T18:34:32Z)
A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文参考訳（メタデータ） (2024-04-04T14:45:26Z)
On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。正しい解答知識を持つLLMの現象を推論力学の観点から検討する。我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文参考訳（メタデータ） (2024-03-29T06:48:30Z)
On the Audio Hallucinations in Large Audio-Video Language Models [2.303098021872002]
本稿では,大規模な音声・ビデオ言語モデルを用いて,音声の幻覚を抽出し,解析する。音声情報について質問して1000の文章を収集し,幻覚を含むか否かを注釈する。ゼロショットおよび微調整設定における事前学習音声テキストモデルを用いた音声幻覚分類の課題に取り組む。
論文参考訳（メタデータ） (2024-01-18T07:50:07Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文参考訳（メタデータ） (2024-01-03T06:56:56Z)
Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion [12.064177287199822]
音声変換は、言語コンテンツを保存しながら、人の声に似せて聞こえるように人の声を変更することを目的としている。既存の手法は、内容の知性と話者の類似性の間のジレンマに悩まされる。両世界のベストを達成できる新しい方法であるtextitPhoneme Hallucinatorを提案する。
論文参考訳（メタデータ） (2023-08-11T20:44:19Z)
Using Mobile Data and Deep Models to Assess Auditory Verbal Hallucinations [3.676944894021643]
聴覚幻覚の一般的な形態は、どの話者もいないときに声を聴くことである。音声を聴くN=435名を対象に,聴覚言語幻聴の評価を行った。
論文参考訳（メタデータ） (2023-04-20T15:37:34Z)
Probing Causes of Hallucinations in Neural Machine Translations [51.418245676894465]
本稿では,モデルアーキテクチャの観点から幻覚の原因を探索する手法を提案する。幻覚には、しばしば欠陥のあるエンコーダ、特に埋め込み、脆弱なクロスアテンションが伴う。
論文参考訳（メタデータ） (2022-06-25T01:57:22Z)
On Hallucination and Predictive Uncertainty in Conditional Language Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文参考訳（メタデータ） (2021-03-28T00:32:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。