Fugu-MT 論文翻訳(概要): SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

論文の概要: SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

arxiv url: http://arxiv.org/abs/2606.02642v1
Date: Sun, 31 May 2026 14:00:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:04.485989
Title: SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models
Title（参考訳）: SVHalluc: 音声視覚大言語モデルにおける音声ビジョン幻覚のベンチマーク
Authors: Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh,
Abstract要約: 音声-視覚的大言語モデル(LLM)において、音声内容が幻覚を誘発できることを示す。我々のベンチマークは、意味と時間という2つの重要な側面と相補的な側面から、音声ビジョンの幻覚を診断する。我々の研究は、現在の音声-視覚的LLMの新たな基本的制限を明らかにし、音声-地上映像の理解の必要性を強調している。
参考スコア（独自算出の注目度）: 32.25458333197992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the success of audio-visual large-language models (LLMs), they can produce plausible but ungrounded outputs, termed hallucination. Existing benchmarks focus on environmental sounds (e.g., dog barking) to indicate event occurrence. In contrast, human speech carries fundamentally different, rich semantics and temporal structures, yet it remains unexplored whether current models can accurately align speech content with corresponding visual signals. In this work, we show that speech content can induce hallucinations in audio-visual LLMs. To systematically study this, we introduce SVHalluc, the first comprehensive benchmark for evaluating speech-vision hallucination in audio-visual LLMs. Our benchmark diagnoses speech-vision hallucinations from two critical and complementary aspects: semantic and temporal. Experimental results demonstrate that state-of-the-art open-source audio-visual LLMs struggle with aligning speech content with corresponding visual signals, with a near-random accuracy on multiple tasks. In contrast, Gemini 2.5 Pro significantly outperforms the open-source models. Our analysis suggests that their failures stem from limited ability in cross-modality understanding, despite strong performance in single-modality perception. Our work uncovers a new and fundamental limitation of current audio-visual LLMs and highlights the need for speech-grounded video comprehension. Project page: https://chenshuang-zhang.github.io/projects/svhalluc/.
Abstract（参考訳）: 音声-視覚的大言語モデル(LLM)の成功にもかかわらず、幻覚と呼ばれる、可視だが根拠のない出力を生成できる。既存のベンチマークでは、イベントの発生を示す環境音(例えば犬のbarking)に焦点を当てている。対照的に、人間の音声は基本的に異なる、リッチな意味論と時間構造を持っているが、現在のモデルが音声内容と対応する視覚信号とを正確に一致させることができるかどうかはまだ明らかになっていない。本研究では,音声-視覚的LLMにおいて,音声コンテンツが幻覚を誘発できることを示す。 SVHallucは,音声視覚LLMにおける音声視覚幻覚評価のための,最初の総合的なベンチマークである。我々のベンチマークは、意味と時間という2つの重要な側面と相補的な側面から、音声ビジョンの幻覚を診断する。実験結果から、最先端のオープンソース音声視覚LLMは、複数のタスクにおいてほぼランダムな精度で、音声内容と対応する視覚信号の整合に苦慮していることが明らかとなった。対照的に、Gemini 2.5 Proはオープンソースモデルよりも大幅に優れています。分析の結果, 単一モダリティ知覚の強い性能にもかかわらず, クロスモダリティ理解能力に限界があることが示唆された。我々の研究は、現在の音声-視覚的LLMの新たな基本的制限を明らかにし、音声-地上映像の理解の必要性を強調している。プロジェクトページ: https://chenshuang-zhang.github.io/projects/svhalluc/。

関連論文リスト

Do Audio-Visual Large Language Models Really See and Hear? [66.8531220331223]
我々は音声と視覚機能がどのように進化し、最終的なテキスト出力を生成するためにAVLLMの異なる層を融合するかを分析する。 AVLLMの基本的なモダリティバイアスを明らかにし、マルチモーダルLLMがオーディオとビジョンをどのように統合するかに関する新しい力学的な洞察を提供する。
論文参考訳（メタデータ） (2026-04-03T00:48:49Z)
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models [24.851643680674474]
AV-SpeakerBenchは、現実世界のビデオにおける話者中心のオーディオヴィジュアル推論に焦点を当てた、3,212のマルチチョイス質問のベンチマークである。その特徴は,(1)話者中心の場面を中心的推論単位として扱う話者中心の定式化,(2)音声の視覚的依存を質問意味論に組み込む融合型質問設計,(3)時間的精度と横断的妥当性を保証する専門家計算アノテーションである。
論文参考訳（メタデータ） (2025-12-01T21:57:26Z)
When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion? [41.579901082251254]
実験結果から,Multimodal Large Language Models (MLLM) は視覚的に支配的な推論のため,存在しない音声の識別に苦慮していることが明らかとなった。本稿では,RL-CoMM(Reinforcement Learning-based Collaborative Multi-MLLM)を紹介する。 1)視覚的に支配されるあいまいさを緩和するために、音声のみの推論を生成するための参照モデルとして、外部モデルであるLarge Audio Language Model (LALM)を導入する。
論文参考訳（メタデータ） (2025-11-13T07:59:41Z)
Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation [13.137446396934102]
音声オブジェクトの認識において,人間に対する音声・視覚・視覚・視覚大言語モデル(LLM)の評価を行った。 Qwen2-Audio と Qwen2-VL の間には,人間の耳と眼の感覚の相違がみられる。
論文参考訳（メタデータ） (2025-05-11T01:01:44Z)
AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。 AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文参考訳（メタデータ） (2024-10-23T23:36:06Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
LiRA: Learning Visual Speech Representations from Audio through Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-16T23:20:06Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。