論文の概要: Listening without Looking: Modality Bias in Audio-Visual Captioning
- arxiv url: http://arxiv.org/abs/2510.24024v1
- Date: Tue, 28 Oct 2025 03:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.731928
- Title: Listening without Looking: Modality Bias in Audio-Visual Captioning
- Title(参考訳): 視聴なしで聴く:オーディオ・ビジュアル・キャプションにおけるモダリティバイアス
- Authors: Yuchi Ishikawa, Toranosuke Manabe, Tatsuya Komatsu, Yoshimitsu Aoki,
- Abstract要約: 我々は,現在最先端の音声映像キャプションモデルであるLAVCapのモダリティテストを実施している。
この分析は、LAVCapのオーディオストリームに対する顕著なバイアスを明らかにする。
オーディオとビジュアルストリームを共同で記述するテキストアノテーションでAudioCapsを拡張する。
その結果、AudioVisualCapsでトレーニングされたLAVCapは、AudioCapsでトレーニングされた場合よりもモダリティバイアスが少ないことが示唆された。
- 参考スコア(独自算出の注目度): 26.155364752676167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual captioning aims to generate holistic scene descriptions by jointly modeling sound and vision. While recent methods have improved performance through sophisticated modality fusion, it remains unclear to what extent the two modalities are complementary in current audio-visual captioning models and how robust these models are when one modality is degraded. We address these questions by conducting systematic modality robustness tests on LAVCap, a state-of-the-art audio-visual captioning model, in which we selectively suppress or corrupt the audio or visual streams to quantify sensitivity and complementarity. The analysis reveals a pronounced bias toward the audio stream in LAVCap. To evaluate how balanced audio-visual captioning models are in their use of both modalities, we augment AudioCaps with textual annotations that jointly describe the audio and visual streams, yielding the AudioVisualCaps dataset. In our experiments, we report LAVCap baseline results on AudioVisualCaps. We also evaluate the model under modality robustness tests on AudioVisualCaps and the results indicate that LAVCap trained on AudioVisualCaps exhibits less modality bias than when trained on AudioCaps.
- Abstract(参考訳): 音声-視覚キャプションは、音と視覚を共同でモデル化することで、全体像記述を生成することを目的としている。
近年の手法では、高度なモダリティ融合による性能向上が試みられているが、現在の音声・視覚キャプションモデルにおいて、この2つのモダリティがどの程度相補的であるか、また、1つのモダリティが劣化した場合に、これらのモデルがどれほど頑健であるかは定かではない。
LAVCapは,音声や視覚のストリームを選択的に抑制・破壊し,感度と相補性を定量化する,最先端の音声・視覚キャプションモデルである。
この分析は、LAVCapのオーディオストリームに対する顕著なバイアスを明らかにする。
両モードで音声と視覚のキャプションモデルがどのように使われているかを評価するために、オーディオと視覚のストリームを共同で記述するテキストアノテーションでAudioVisualCapsのデータセットを作成し、AudioVisualCapsデータセットを生成する。
実験では,AudioVisualCapsにおけるLAVCapのベースライン結果について報告する。
また、AudioVisualCapsでトレーニングしたLAVCapは、AudioVisualCapsでトレーニングした場合よりも、モダリティバイアスが少ないことが示唆された。
関連論文リスト
- LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport [16.108957027494604]
LAVCapは大型言語モデル(LLM)ベースの音声視覚キャプションフレームワークである。
視覚情報とオーディオを統合し、音声キャプション性能を向上させる。
既存のAudioCapsデータセットの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-01-16T04:53:29Z) - AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning [24.608569008975497]
AVCap(Audio-Visual Captioning framework)を提案する。
AVCapは音声視覚機能をテキストトークンとして利用する。
提案手法は,既存の音声・視覚のキャプション手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-10T16:17:49Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。