Fugu-MT 論文翻訳(概要): Listening without Looking: Modality Bias in Audio-Visual Captioning

論文の概要: Listening without Looking: Modality Bias in Audio-Visual Captioning

arxiv url: http://arxiv.org/abs/2510.24024v1
Date: Tue, 28 Oct 2025 03:06:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-29 15:35:36.731928
Title: Listening without Looking: Modality Bias in Audio-Visual Captioning
Title（参考訳）: 視聴なしで聴く:オーディオ・ビジュアル・キャプションにおけるモダリティバイアス
Authors: Yuchi Ishikawa, Toranosuke Manabe, Tatsuya Komatsu, Yoshimitsu Aoki,
Abstract要約: 我々は,現在最先端の音声映像キャプションモデルであるLAVCapのモダリティテストを実施している。この分析は、LAVCapのオーディオストリームに対する顕著なバイアスを明らかにする。オーディオとビジュアルストリームを共同で記述するテキストアノテーションでAudioCapsを拡張する。その結果、AudioVisualCapsでトレーニングされたLAVCapは、AudioCapsでトレーニングされた場合よりもモダリティバイアスが少ないことが示唆された。
参考スコア（独自算出の注目度）: 26.155364752676167
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual captioning aims to generate holistic scene descriptions by jointly modeling sound and vision. While recent methods have improved performance through sophisticated modality fusion, it remains unclear to what extent the two modalities are complementary in current audio-visual captioning models and how robust these models are when one modality is degraded. We address these questions by conducting systematic modality robustness tests on LAVCap, a state-of-the-art audio-visual captioning model, in which we selectively suppress or corrupt the audio or visual streams to quantify sensitivity and complementarity. The analysis reveals a pronounced bias toward the audio stream in LAVCap. To evaluate how balanced audio-visual captioning models are in their use of both modalities, we augment AudioCaps with textual annotations that jointly describe the audio and visual streams, yielding the AudioVisualCaps dataset. In our experiments, we report LAVCap baseline results on AudioVisualCaps. We also evaluate the model under modality robustness tests on AudioVisualCaps and the results indicate that LAVCap trained on AudioVisualCaps exhibits less modality bias than when trained on AudioCaps.
Abstract（参考訳）: 音声-視覚キャプションは、音と視覚を共同でモデル化することで、全体像記述を生成することを目的としている。近年の手法では、高度なモダリティ融合による性能向上が試みられているが、現在の音声・視覚キャプションモデルにおいて、この2つのモダリティがどの程度相補的であるか、また、1つのモダリティが劣化した場合に、これらのモデルがどれほど頑健であるかは定かではない。 LAVCapは,音声や視覚のストリームを選択的に抑制・破壊し,感度と相補性を定量化する,最先端の音声・視覚キャプションモデルである。この分析は、LAVCapのオーディオストリームに対する顕著なバイアスを明らかにする。両モードで音声と視覚のキャプションモデルがどのように使われているかを評価するために、オーディオと視覚のストリームを共同で記述するテキストアノテーションでAudioVisualCapsのデータセットを作成し、AudioVisualCapsデータセットを生成する。実験では,AudioVisualCapsにおけるLAVCapのベースライン結果について報告する。また、AudioVisualCapsでトレーニングしたLAVCapは、AudioVisualCapsでトレーニングした場合よりも、モダリティバイアスが少ないことが示唆された。

論文の概要: Listening without Looking: Modality Bias in Audio-Visual Captioning

関連論文リスト