論文の概要: Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation
- arxiv url: http://arxiv.org/abs/2505.06803v1
- Date: Sun, 11 May 2025 01:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.046681
- Title: Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation
- Title(参考訳): ブリッジング耳と目:可視音認識における音声および視覚大言語モデルの解析とクロスモーダル蒸留による感覚ギャップの低減
- Authors: Xilin Jiang, Junkai Wu, Vishal Choudhari, Nima Mesgarani,
- Abstract要約: 音声オブジェクトの認識において,人間に対する音声・視覚・視覚・視覚大言語モデル(LLM)の評価を行った。
Qwen2-Audio と Qwen2-VL の間には,人間の耳と眼の感覚の相違がみられる。
- 参考スコア(独自算出の注目度): 13.137446396934102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio large language models (LLMs) are considered experts at recognizing sound objects, yet their performance relative to LLMs in other sensory modalities, such as visual or audio-visual LLMs, and to humans using their ears, eyes, or both remains unexplored. To investigate this, we systematically evaluate audio, visual, and audio-visual LLMs, specifically Qwen2-Audio, Qwen2-VL, and Qwen2.5-Omni, against humans in recognizing sound objects of different classes from audio-only, silent video, or sounded video inputs. We uncover a performance gap between Qwen2-Audio and Qwen2-VL that parallels the sensory discrepancy between human ears and eyes. To reduce this gap, we introduce a cross-modal distillation framework, where an LLM in one modality serves as the teacher and another as the student, with knowledge transfer in sound classes predicted as more challenging to the student by a heuristic model. Distillation in both directions, from Qwen2-VL to Qwen2-Audio and vice versa, leads to notable improvements, particularly in challenging classes. This work highlights the sensory gap in LLMs from a human-aligned perspective and proposes a principled approach to enhancing modality-specific perception in multimodal LLMs.
- Abstract(参考訳): 音声大言語モデル(LLM)は、音の物体を認識する専門家と見なされているが、視覚的・視覚的LLMや、人間の耳、目、またはその両方を使用した場合、その性能は未解明のままである。
そこで本研究では,音声のみ,サイレントビデオ,音声入力から異なるクラスの音響オブジェクトを認識する上で,人間に対して,視覚的,視覚的,視覚的なLLM(特にQwen2-Audio,Qwen2-VL,Qwen2.5-Omni)を体系的に評価する。
Qwen2-Audio と Qwen2-VL の間には,人間の耳と眼の感覚の相違がみられる。
このギャップを減らすために,教師として,生徒として,学生としてLLMが機能するクロスモーダル蒸留フレームワークを導入し,ヒューリスティックモデルにより,学生にとってより困難な音の授業における知識伝達を予測した。
Qwen2-VL から Qwen2-Audio までの両方の方向の蒸留は、特に挑戦的なクラスにおいて顕著な改善をもたらす。
本研究は,LLMにおける感覚ギャップを人間的視点から強調し,マルチモーダルLLMにおけるモダリティ特異的知覚を高めるための原則的アプローチを提案する。
関連論文リスト
- FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。
以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。
AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-23T23:36:06Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。