論文の概要: Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation
- arxiv url: http://arxiv.org/abs/2505.06803v1
- Date: Sun, 11 May 2025 01:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.046681
- Title: Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation
- Title(参考訳): ブリッジング耳と目:可視音認識における音声および視覚大言語モデルの解析とクロスモーダル蒸留による感覚ギャップの低減
- Authors: Xilin Jiang, Junkai Wu, Vishal Choudhari, Nima Mesgarani,
- Abstract要約: 音声オブジェクトの認識において,人間に対する音声・視覚・視覚・視覚大言語モデル(LLM)の評価を行った。
Qwen2-Audio と Qwen2-VL の間には,人間の耳と眼の感覚の相違がみられる。
- 参考スコア(独自算出の注目度): 13.137446396934102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio large language models (LLMs) are considered experts at recognizing sound objects, yet their performance relative to LLMs in other sensory modalities, such as visual or audio-visual LLMs, and to humans using their ears, eyes, or both remains unexplored. To investigate this, we systematically evaluate audio, visual, and audio-visual LLMs, specifically Qwen2-Audio, Qwen2-VL, and Qwen2.5-Omni, against humans in recognizing sound objects of different classes from audio-only, silent video, or sounded video inputs. We uncover a performance gap between Qwen2-Audio and Qwen2-VL that parallels the sensory discrepancy between human ears and eyes. To reduce this gap, we introduce a cross-modal distillation framework, where an LLM in one modality serves as the teacher and another as the student, with knowledge transfer in sound classes predicted as more challenging to the student by a heuristic model. Distillation in both directions, from Qwen2-VL to Qwen2-Audio and vice versa, leads to notable improvements, particularly in challenging classes. This work highlights the sensory gap in LLMs from a human-aligned perspective and proposes a principled approach to enhancing modality-specific perception in multimodal LLMs.
- Abstract(参考訳): 音声大言語モデル(LLM)は、音の物体を認識する専門家と見なされているが、視覚的・視覚的LLMや、人間の耳、目、またはその両方を使用した場合、その性能は未解明のままである。
そこで本研究では,音声のみ,サイレントビデオ,音声入力から異なるクラスの音響オブジェクトを認識する上で,人間に対して,視覚的,視覚的,視覚的なLLM(特にQwen2-Audio,Qwen2-VL,Qwen2.5-Omni)を体系的に評価する。
Qwen2-Audio と Qwen2-VL の間には,人間の耳と眼の感覚の相違がみられる。
このギャップを減らすために,教師として,生徒として,学生としてLLMが機能するクロスモーダル蒸留フレームワークを導入し,ヒューリスティックモデルにより,学生にとってより困難な音の授業における知識伝達を予測した。
Qwen2-VL から Qwen2-Audio までの両方の方向の蒸留は、特に挑戦的なクラスにおいて顕著な改善をもたらす。
本研究は,LLMにおける感覚ギャップを人間的視点から強調し,マルチモーダルLLMにおけるモダリティ特異的知覚を高めるための原則的アプローチを提案する。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。
以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。
AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-23T23:36:06Z) - With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models [16.583370726582356]
視覚言語モデル (VLM) は, 正書法や画像のみからの抽象的推論により, 暗黙的に音による現象を理解できることを示す。
我々は,古典的キキ・ブーバやミル・マール形状の再現,等級記号課題などの実験を行った。
以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T11:13:25Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。