論文の概要: Listening without Looking: Modality Bias in Audio-Visual Captioning
- arxiv url: http://arxiv.org/abs/2510.24024v1
- Date: Tue, 28 Oct 2025 03:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.731928
- Title: Listening without Looking: Modality Bias in Audio-Visual Captioning
- Title(参考訳): 視聴なしで聴く:オーディオ・ビジュアル・キャプションにおけるモダリティバイアス
- Authors: Yuchi Ishikawa, Toranosuke Manabe, Tatsuya Komatsu, Yoshimitsu Aoki,
- Abstract要約: 我々は,現在最先端の音声映像キャプションモデルであるLAVCapのモダリティテストを実施している。
この分析は、LAVCapのオーディオストリームに対する顕著なバイアスを明らかにする。
オーディオとビジュアルストリームを共同で記述するテキストアノテーションでAudioCapsを拡張する。
その結果、AudioVisualCapsでトレーニングされたLAVCapは、AudioCapsでトレーニングされた場合よりもモダリティバイアスが少ないことが示唆された。
- 参考スコア(独自算出の注目度): 26.155364752676167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual captioning aims to generate holistic scene descriptions by jointly modeling sound and vision. While recent methods have improved performance through sophisticated modality fusion, it remains unclear to what extent the two modalities are complementary in current audio-visual captioning models and how robust these models are when one modality is degraded. We address these questions by conducting systematic modality robustness tests on LAVCap, a state-of-the-art audio-visual captioning model, in which we selectively suppress or corrupt the audio or visual streams to quantify sensitivity and complementarity. The analysis reveals a pronounced bias toward the audio stream in LAVCap. To evaluate how balanced audio-visual captioning models are in their use of both modalities, we augment AudioCaps with textual annotations that jointly describe the audio and visual streams, yielding the AudioVisualCaps dataset. In our experiments, we report LAVCap baseline results on AudioVisualCaps. We also evaluate the model under modality robustness tests on AudioVisualCaps and the results indicate that LAVCap trained on AudioVisualCaps exhibits less modality bias than when trained on AudioCaps.
- Abstract(参考訳): 音声-視覚キャプションは、音と視覚を共同でモデル化することで、全体像記述を生成することを目的としている。
近年の手法では、高度なモダリティ融合による性能向上が試みられているが、現在の音声・視覚キャプションモデルにおいて、この2つのモダリティがどの程度相補的であるか、また、1つのモダリティが劣化した場合に、これらのモデルがどれほど頑健であるかは定かではない。
LAVCapは,音声や視覚のストリームを選択的に抑制・破壊し,感度と相補性を定量化する,最先端の音声・視覚キャプションモデルである。
この分析は、LAVCapのオーディオストリームに対する顕著なバイアスを明らかにする。
両モードで音声と視覚のキャプションモデルがどのように使われているかを評価するために、オーディオと視覚のストリームを共同で記述するテキストアノテーションでAudioVisualCapsのデータセットを作成し、AudioVisualCapsデータセットを生成する。
実験では,AudioVisualCapsにおけるLAVCapのベースライン結果について報告する。
また、AudioVisualCapsでトレーニングしたLAVCapは、AudioVisualCapsでトレーニングした場合よりも、モダリティバイアスが少ないことが示唆された。
関連論文リスト
- ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning [37.17910848101769]
現在の視覚誘導型オーディオキャプションシステムは、現実のシナリオにおけるオーディオヴィジュアル・アライメントに対処できない。
本稿では,モーダルな不確実性定量化を通じて視覚情報の流れを動的に変調するエントロピー対応ゲート融合フレームワークを提案する。
また,合成ミスマッチ学習ペアを生成するバッチワイドオーディオ視覚シャッフル技術を開発した。
論文 参考訳(メタデータ) (2025-05-28T07:08:17Z) - LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport [16.108957027494604]
LAVCapは大型言語モデル(LLM)ベースの音声視覚キャプションフレームワークである。
視覚情報とオーディオを統合し、音声キャプション性能を向上させる。
既存のAudioCapsデータセットの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-01-16T04:53:29Z) - AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning [24.608569008975497]
AVCap(Audio-Visual Captioning framework)を提案する。
AVCapは音声視覚機能をテキストトークンとして利用する。
提案手法は,既存の音声・視覚のキャプション手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-10T16:17:49Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。