論文の概要: Detecting and Mitigating Insertion Hallucination in Video-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2510.08078v1
- Date: Thu, 09 Oct 2025 11:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.029238
- Title: Detecting and Mitigating Insertion Hallucination in Video-to-Audio Generation
- Title(参考訳): Video-to-Audio 生成における挿入幻覚の検出と緩和
- Authors: Liyang Chen, Hongkai Chen, Yujun Cai, Sifan Li, Qingwen Ye, Yiwei Wang,
- Abstract要約: Video-to-Audio世代は、ビデオのための自動サウンドに顕著な進歩を遂げた。
我々は、この現象を挿入幻覚と呼び、データセットバイアスによって引き起こされるシステム的リスクとみなす。
この問題の有病率と重症度を定量化する2つの新しい指標を導入する。
IHを緩和する新しいトレーニングフリー推論時間法であるPosterior Feature Correctionを提案する。
- 参考スコア(独自算出の注目度): 29.443084496227026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-Audio generation has made remarkable strides in automatically synthesizing sound for video. However, existing evaluation metrics, which focus on semantic and temporal alignment, overlook a critical failure mode: models often generate acoustic events, particularly speech and music, that have no corresponding visual source. We term this phenomenon Insertion Hallucination and identify it as a systemic risk driven by dataset biases, such as the prevalence of off-screen sounds, that remains completely undetected by current metrics. To address this challenge, we first develop a systematic evaluation framework that employs a majority-voting ensemble of multiple audio event detectors. We also introduce two novel metrics to quantify the prevalence and severity of this issue: IH@vid (the fraction of videos with hallucinations) and IH@dur (the fraction of hallucinated duration). Building on this, we propose Posterior Feature Correction, a novel training-free inference-time method that mitigates IH. PFC operates in a two-pass process: it first generates an initial audio output to detect hallucinated segments, and then regenerates the audio after masking the corresponding video features at those timestamps. Experiments on several mainstream V2A benchmarks first reveal that state-of-the-art models suffer from severe IH. In contrast, our PFC method reduces both the prevalence and duration of hallucinations by over 50\% on average, without degrading, and in some cases even improving, conventional metrics for audio quality and temporal synchronization. Our work is the first to formally define, systematically measure, and effectively mitigate Insertion Hallucination, paving the way for more reliable and faithful V2A models.
- Abstract(参考訳): Video-to-Audio世代は、ビデオのための音声を自動合成する際、顕著な進歩を遂げた。
しかし、意味的および時間的アライメントに焦点を当てた既存の評価指標は、重要な障害モードを見落としている:モデルはしばしば、対応する視覚的ソースを持たない音響イベント、特に音声と音楽を生成する。
この現象を挿入幻覚(Insertion Hallucination)と呼び、現在の測定値で完全に検出されていないオフスクリーン音の出現率などのデータセットバイアスによって引き起こされるシステム的リスクとみなす。
この課題に対処するために,我々はまず,複数の音声イベント検出器の多数投票アンサンブルを利用するシステム評価フレームワークを開発した。
IH@vid(幻覚のあるビデオの分数)とIH@dur(幻覚期間の分数)の2つの新しい指標も導入した。
そこで我々は,IHを緩和する新しいトレーニングフリー推論時間法であるPosterior Feature Correctionを提案する。
PFCは2パスの処理で動作し、まず最初の音声出力を生成して幻覚したセグメントを検出し、そのタイムスタンプで対応するビデオ特徴をマスキングした後、オーディオを再生する。
いくつかの主流なV2Aベンチマークの実験は、最先端のモデルが深刻なIHに悩まされていることを最初に明らかにした。
対照的に,我々のPFC法は,劣化を伴わずに,幻覚の有病率と持続期間を平均50%以上削減する。
私たちの研究は、より信頼性が高く忠実なV2Aモデルへの道を開いた、インストール幻覚を正式に定義し、体系的に測定し、効果的に緩和する最初のものです。
関連論文リスト
- Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。
人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。
文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文 参考訳(メタデータ) (2025-07-16T17:55:43Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。