論文の概要: Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization
- arxiv url: http://arxiv.org/abs/2505.11217v1
- Date: Fri, 16 May 2025 13:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.064952
- Title: Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization
- Title(参考訳): 音を見る, 聴く, 視力: 音像定位におけるAIモデルのモダリティバイアスと矛盾を明らかにする
- Authors: Yanhao Jia, Ji Xie, S Jivaganesh, Hao Li, Xu Wu, Mengmi Zhang,
- Abstract要約: 人間はAIを一貫して上回り、聴覚情報に頼ることによって、対立や欠落した視覚に対して優れたレジリエンスを示す。
3次元シミュレーションによって生成されたステレオオーディオ画像データセットを用いて最先端モデルを微調整する。
- 参考スコア(独自算出の注目度): 9.726581483075938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine hearing a dog bark and turning toward the sound only to see a parked car, while the real, silent dog sits elsewhere. Such sensory conflicts test perception, yet humans reliably resolve them by prioritizing sound over misleading visuals. Despite advances in multimodal AI integrating vision and audio, little is known about how these systems handle cross-modal conflicts or whether they favor one modality. In this study, we systematically examine modality bias and conflict resolution in AI sound localization. We assess leading multimodal models and benchmark them against human performance in psychophysics experiments across six audiovisual conditions, including congruent, conflicting, and absent cues. Humans consistently outperform AI, demonstrating superior resilience to conflicting or missing visuals by relying on auditory information. In contrast, AI models often default to visual input, degrading performance to near chance levels. To address this, we finetune a state-of-the-art model using a stereo audio-image dataset generated via 3D simulations. Even with limited training data, the refined model surpasses existing benchmarks. Notably, it also mirrors human-like horizontal localization bias favoring left-right precision-likely due to the stereo audio structure reflecting human ear placement. These findings underscore how sensory input quality and system architecture shape multimodal representation accuracy.
- Abstract(参考訳): 犬の鳴き声が聞こえて、駐車中の車を見るためにしか音が聞こえないのを想像してみてください。
このような感覚はテスト知覚と矛盾するが、人間は誤解を招く視覚よりも音を優先することでそれを確実に解決する。
視覚とオーディオを統合するマルチモーダルAIの進歩にもかかわらず、これらのシステムが相互モーダルの競合をどのように扱うのか、あるいはそれらがひとつのモダリティを好むかどうかについては、ほとんど分かっていない。
本研究では,AI音像定位におけるモダリティバイアスとコンフリクト解消を系統的に検討する。
我々は,先行するマルチモーダルモデルを評価し,コングルーエント,コンフリクト,欠落した手がかりを含む6つの聴覚条件を対象とした心理物理学実験において,人間のパフォーマンスに対する評価を行った。
人間はAIを一貫して上回り、聴覚情報に頼ることによって、対立や欠落した視覚に対して優れたレジリエンスを示す。
対照的に、AIモデルは多くの場合、視覚的な入力をデフォルトとし、パフォーマンスをほぼチャンスレベルまで低下させる。
これを解決するために,3次元シミュレーションにより生成されたステレオオーディオ画像データセットを用いて最先端のモデルを微調整する。
限られたトレーニングデータであっても、洗練されたモデルは既存のベンチマークを上回っている。
また、人間の耳の配置を反映したステレオオーディオ構造のため、左右の精度を優先する人型水平位置決めバイアスも反映している。
これらの知見は、感覚入力品質とシステムアーキテクチャがマルチモーダル表現の精度をどのように形成するかを裏付けるものである。
関連論文リスト
- Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound [46.7144966835279]
本稿では,人間の介入なしに審美を予測できる自動システムの必要性に対処する。
人間の聴取視点を4つの異なる軸に分解する新しいガイドラインを提案する。
我々は、音声品質のより微妙な評価を提供する、ノン参照、イテムごとの予測モデルを開発し、訓練する。
論文 参考訳(メタデータ) (2025-02-07T18:15:57Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation [26.867430697990674]
我々は、頭部を回転させると微妙だが幾何的に一貫した変化を起こす画像と音を使って、カメラの回転と音源の定位を推定する。
視覚モデルは、一対の画像からカメラの回転を予測し、音声モデルは、音源の方向を音から予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
本モデルでは, 実シーンと合成シーンの両方で回転を推定し, 最先端の自己監督手法と競合する精度で音源のローカライズを行う。
論文 参考訳(メタデータ) (2023-03-20T17:59:55Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。