論文の概要: Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness
- arxiv url: http://arxiv.org/abs/2504.16936v1
- Date: Thu, 03 Apr 2025 03:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.080978
- Title: Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness
- Title(参考訳): MLLMの多面的聴覚機能評価:有効性、効率性、一般化性、ロバスト性
- Authors: Yusheng Zhao, Junyu Luo, Xiao Luo, Weizhi Zhang, Zhiping Xiao, Wei Ju, Philip S. Yu, Ming Zhang,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は近年,多様なモーダルからの情報処理と理解において大きな成功を収めている。
人気が高まっているにもかかわらず、これらのモデルの音声視覚能力を評価する包括的な評価はいまだに残っていない。
本稿では,MLLMの音響視覚能力の多面的評価を行い,有効性,効率性,一般化性,堅牢性という4つの重要な側面に着目した。
- 参考スコア(独自算出の注目度): 38.60952476054704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have recently achieved great success in processing and understanding information from diverse modalities (e.g., text, audio, and visual signals). Despite their growing popularity, there remains a lack of comprehensive evaluation measuring the audio-visual capabilities of these models, especially in diverse scenarios (e.g., distribution shifts and adversarial attacks). In this paper, we present a multifaceted evaluation of the audio-visual capability of MLLMs, focusing on four key dimensions: effectiveness, efficiency, generalizability, and robustness. Through extensive experiments, we find that MLLMs exhibit strong zero-shot and few-shot generalization abilities, enabling them to achieve great performance with limited data. However, their success relies heavily on the vision modality, which impairs performance when visual input is corrupted or missing. Additionally, while MLLMs are susceptible to adversarial samples, they demonstrate greater robustness compared to traditional models. The experimental results and our findings provide insights into the audio-visual capabilities of MLLMs, highlighting areas for improvement and offering guidance for future research.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は近年,様々なモーダル(テキスト,音声,視覚信号など)からの情報処理と理解において大きな成功を収めている。
人気が高まっているにもかかわらず、特に様々なシナリオ(例えば、分布シフト、敵攻撃など)において、これらのモデルの音声視覚能力を評価する包括的な評価はいまだに残っていない。
本稿では,MLLMの音響視覚能力を多面的に評価し,有効性,効率性,一般化性,堅牢性という4つの重要な側面に着目した。
大規模な実験により、MLLMは強力なゼロショットと少数ショットの一般化能力を示し、限られたデータで優れた性能を達成できることが判明した。
しかし、その成功は視覚のモダリティに大きく依存しており、視覚入力が破損したり、欠落した場合のパフォーマンスを損なう。
また,MLLMは従来のモデルに比べて強い強靭性を示す。
本研究は,MLLMの聴覚・視覚機能に関する知見を提供し,今後の研究のための改善とガイダンスを提供する。
関連論文リスト
- Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を活用して、印象的な成果を上げている。
現在のベンチマークでは、この観点からMLLMを評価する能力がない。
MLLMと人間の視覚システムとの整合性を評価するための大規模ベンチマークであるHVSBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
我々は、既存のMLLMでは難しい評価を緩和し、定量化する、視覚質問回答(VQA)の専門形式に焦点を当てる。
我々は,制限された知覚野が能動的な知覚を可能にする上で重要な役割を担っていることを観察した。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。