論文の概要: When Vision Speaks for Sound
- arxiv url: http://arxiv.org/abs/2605.16403v1
- Date: Wed, 13 May 2026 05:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.292564
- Title: When Vision Speaks for Sound
- Title(参考訳): 視覚が音に耳を傾けるとき
- Authors: Xiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu, Wendi Li, Yanan Xie, Muhao Chen, Peng Qi,
- Abstract要約: ビデオ対応MLLMの急速な進歩にもかかわらず、ビデオにおける明らかな音声理解はビジョン駆動であることが多い。
この問題は、最先端のオープンソースオムニモデルと、GoogleやOpenAIといったプロバイダによるクローズドソースモデルの両方にまたがっている。
我々は、この障害モードを、モデルが(頻繁に)オーディオグラウンドに現れるが、実際にオーディオとビジュアルストリームが本当に一致しているかどうかを検証せずに、視覚-音響相関を利用する、オーディオ-ビジュアル・クリーバー・ハンス効果として特徴付けている。
- 参考スコア(独自算出の注目度): 31.08404410801052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate acoustic information, rather than verifying the audio stream. This issue appears across both state-of-the-art open-source omni models and leading closed-source models from providers such as Google and OpenAI. We characterize this failure mode as an audio-visual Clever Hans effect, in which models appear (falsely) audio-grounded, but actually exploit visual-acoustic correlations without verifying whether the audio and visual streams are truly aligned. To systematically study this behavior, we introduce Thud, an intervention-driven probing framework based on three counterfactual audio edits: Shift, which tests temporal synchronization; Mute, which tests sound existence; and Swap, which tests audio-visual consistency. Beyond diagnosis, we further study a two-stage alignment recipe: intervention-derived preference pairs teach audio verification, while event-level general video preferences regularize the model against over-specialization. Our best 10K-sample recipe improves average performance across the three intervention dimensions by 28 percentage points, while slightly improving performance on general video and audio-visual QA benchmarks.
- Abstract(参考訳): ビデオ対応MLLMの急速な進歩にもかかわらず、ビデオにおける明らかな音声理解は、しばしば視覚駆動である。
この問題は、最先端のオープンソースオムニモデルと、GoogleやOpenAIといったプロバイダによるクローズドソースモデルの両方にまたがっている。
我々は、この障害モードを、モデルが(頻繁に)オーディオグラウンドに現れるが、実際にオーディオとビジュアルストリームが本当に一致しているかどうかを検証せずに、視覚-音響相関を利用する、オーディオ-ビジュアル・クリーバー・ハンス効果として特徴付けている。
この動作を体系的に研究するために,時間同期を検査するShift,音の存在を検査するMute,音声と視覚の整合性をテストするSwapという3つの対実的オーディオ編集に基づく介入駆動型探索フレームワークThudを紹介する。
診断以外にも、2段階のアライメントのレシピについても検討する: 介入由来の選好ペアが音声検証を教える一方、イベントレベルの一般的なビデオ選好は、過度な特殊化に対してモデルを規則化する。
われわれのベスト10Kサンプルレシピは、3つの介入次元の平均性能を28ポイント改善し、一般的なビデオおよびオーディオ視覚的QAベンチマークのパフォーマンスをわずかに改善した。
関連論文リスト
- Exploring Audio Hallucination in Egocentric Video Understanding [66.1760617001607]
最先端の大規模音声視覚言語モデル(AV-LLM)はマルチモーダルな記述を生成することができる。
本研究では、視覚的手がかりから音を推測するが、聴くことができない。
論文 参考訳(メタデータ) (2026-04-26T20:06:58Z) - AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech [56.08149157180447]
本稿では,大規模マルチモーダルモデルの音声キャプション機能を評価するベンチマークであるAudioCapBenchを紹介する。
我々は、参照ベースのメトリクス(METEOR、BLEU、ROUGE-L)とLLM-as-Judgeフレームワークを使用して、2つのプロバイダ(OpenAI、Google Gemini)にわたる13のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-27T03:33:37Z) - In-Context Audio Control of Video Diffusion Transformers [28.911323185865186]
本稿では,ビデオ拡散変換器(ICAC)の音環境制御について述べる。
本稿では,FullDiTに似た統合されたフルアテンションアーキテクチャにおいて,音声による映像生成のための音声信号の統合について検討する。
本研究では,注意パターンを制約して時間的アライメントを強制し,安定したトレーニングと優れたパフォーマンスを実現するMasked 3D Attention機構を提案する。
論文 参考訳(メタデータ) (2025-12-21T15:22:28Z) - JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-14T17:23:21Z) - Detecting and Mitigating Insertion Hallucination in Video-to-Audio Generation [29.443084496227026]
Video-to-Audio世代は、ビデオのための自動サウンドに顕著な進歩を遂げた。
我々は、この現象を挿入幻覚と呼び、データセットバイアスによって引き起こされるシステム的リスクとみなす。
この問題の有病率と重症度を定量化する2つの新しい指標を導入する。
IHを緩和する新しいトレーニングフリー推論時間法であるPosterior Feature Correctionを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:08:07Z) - Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation [46.29811604867483]
テスト時間適応(TTA)は、テストフェーズ中に自己教師なし学習を行うことで、訓練されたモデルの一般化能力を高めることを目的としている。
本稿では,音声情報をビデオTTAに組み込む新しい手法を提案する。
提案手法は,音声による擬似ラベルを生成するために,音声のリッチなセマンティックコンテンツを活用する。
論文 参考訳(メタデータ) (2025-06-14T12:44:58Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。