論文の概要: What is the Visual Cognition Gap between Humans and Multimodal LLMs?
- arxiv url: http://arxiv.org/abs/2406.10424v1
- Date: Fri, 14 Jun 2024 22:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:32:34.253605
- Title: What is the Visual Cognition Gap between Humans and Multimodal LLMs?
- Title(参考訳): 人間とマルチモーダルLLMの視覚的認識ギャップとは?
- Authors: Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz, Jintai Chen, Jianguo Cao, James M. Rehg,
- Abstract要約: MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。
このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。
MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
- 参考スコア(独自算出の注目度): 22.99627171182423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have shown great promise in language-guided perceptual tasks such as recognition, segmentation, and object detection. However, their effectiveness in addressing visual cognition problems that require high-level reasoning is not well-established. One such challenge is abstract visual reasoning (AVR) -- the cognitive ability to discern relationships among patterns in a set of images and extrapolate to predict subsequent patterns. This skill is crucial during the early neurodevelopmental stages of children. Inspired by the AVR tasks in Raven's Progressive Matrices (RPM) and Wechsler Intelligence Scale for Children (WISC), we propose a new dataset MaRs-VQA and a new benchmark VCog-Bench containing three datasets to evaluate the zero-shot AVR capability of MLLMs and compare their performance with existing human intelligent investigation. Our comparative experiments with different open-source and closed-source MLLMs on the VCog-Bench revealed a gap between MLLMs and human intelligence, highlighting the visual cognitive limitations of current MLLMs. We believe that the public release of VCog-Bench, consisting of MaRs-VQA, and the inference pipeline will drive progress toward the next generation of MLLMs with human-like visual cognition abilities.
- Abstract(参考訳): 近年、MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出といった言語誘導の知覚タスクにおいて大きな可能性を示している。
しかし、高レベルの推論を必要とする視覚認知問題に対処する効果は十分に確立されていない。
このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。
このスキルは、幼児の神経発達の初期段階において不可欠である。
本稿では,Raven's Progressive Matrices (RPM) とWechsler Intelligence Scale for Children (WISC) のAVRタスクに触発された新しいデータセット MaRs-VQA と3つのデータセットを含むベンチマーク VCog-Bench を提案する。
VCog-Bench上でのオープンソースとクローズドソースのMLLMの比較実験では,MLLMと人間の知能のギャップが明らかになり,現在のMLLMの視覚的認知的限界が強調された。
我々は、MaRs-VQAからなるVCog-Benchのパブリックリリースと推論パイプラインが、人間のような視覚認知能力を持つ次世代MLLMに向けて前進すると考えている。
関連論文リスト
- MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models [71.34097831618631]
textbfCountertextbfFactual textbfMultitextbfModal reasoning benchmark(略して textbfCFMM)を導入する。
我々のCFMMは6つの課題からなる。
既存のMLLMは、自分たちが見ているものを信じることを好むが、その疑問に提示される反実的な前提を無視している。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [43.51562357823971]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。