論文の概要: On the Audio Hallucinations in Large Audio-Video Language Models
- arxiv url: http://arxiv.org/abs/2401.09774v1
- Date: Thu, 18 Jan 2024 07:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:32:27.868936
- Title: On the Audio Hallucinations in Large Audio-Video Language Models
- Title(参考訳): 大規模音声映像言語モデルにおける音声幻覚について
- Authors: Taichi Nishimura and Shota Nakada and Masayoshi Kondo
- Abstract要約: 本稿では,大規模な音声・ビデオ言語モデルを用いて,音声の幻覚を抽出し,解析する。
音声情報について質問して1000の文章を収集し,幻覚を含むか否かを注釈する。
ゼロショットおよび微調整設定における事前学習音声テキストモデルを用いた音声幻覚分類の課題に取り組む。
- 参考スコア(独自算出の注目度): 2.303098021872002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio-video language models can generate descriptions for both video
and audio. However, they sometimes ignore audio content, producing audio
descriptions solely reliant on visual information. This paper refers to this as
audio hallucinations and analyzes them in large audio-video language models. We
gather 1,000 sentences by inquiring about audio information and annotate them
whether they contain hallucinations. If a sentence is hallucinated, we also
categorize the type of hallucination. The results reveal that 332 sentences are
hallucinated with distinct trends observed in nouns and verbs for each
hallucination type. Based on this, we tackle a task of audio hallucination
classification using pre-trained audio-text models in the zero-shot and
fine-tuning settings. Our experimental results reveal that the zero-shot models
achieve higher performance (52.2% in F1) than the random (40.3%) and the
fine-tuning models achieve 87.9%, outperforming the zero-shot models.
- Abstract(参考訳): 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方に記述を生成することができる。
しかし、時にはオーディオコンテンツを無視し、視覚情報のみに依存するオーディオ記述を生成する。
本稿では、これを音声幻覚と呼び、それを大規模オーディオビデオ言語モデルで分析する。
音声情報について質問して1000文を集め,幻覚を含むか否かを注釈する。
文が幻覚化されている場合、幻覚の種類も分類する。
その結果,332文は幻覚型ごとに名詞や動詞に異なる傾向が観察されることがわかった。
そこで本研究では,ゼロショットおよび微調整設定における事前学習音声テキストモデルを用いた音声幻覚分類の課題に取り組む。
実験結果から、ゼロショットモデルはランダム(40.3%)よりも高い性能(52.2%)、微調整モデルは87.9%、ゼロショットモデルより優れていた。
関連論文リスト
- Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio [15.878350948461646]
推論中に発生する非音声セグメントによって誘導されるWhisper ASRモデルの幻覚について検討する。
様々な種類の音で幻覚を誘導することにより、頻繁に現れる幻覚のセットが存在することを示す。
次に、このような音による音声の増強による幻覚について研究する。
論文 参考訳(メタデータ) (2025-01-20T10:14:52Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - Reducing Hallucinations in Neural Machine Translation with Feature
Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。
まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。
次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-11-17T20:33:56Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - On the Origin of Hallucinations in Conversational Models: Is it the
Datasets or the Models? [32.41234580068662]
既存の知識基盤型対話型ベンチマークといくつかの最先端モデルについて検討する。
標準ベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するモデルにつながっている。
この結果から,既存のデータセットやモデルの品質に関する重要な疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2022-04-17T05:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。