論文の概要: Can Large Multimodal Models Uncover Deep Semantics Behind Images?
- arxiv url: http://arxiv.org/abs/2402.11281v1
- Date: Sat, 17 Feb 2024 13:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:26:48.553022
- Title: Can Large Multimodal Models Uncover Deep Semantics Behind Images?
- Title(参考訳): 大規模マルチモーダルモデルで画像の奥深くのセマンティックスを発見できるのか?
- Authors: Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui
- Abstract要約: 本稿では,大規模マルチモーダルモデルの視覚的深層セマンティクス能力を評価するための総合ベンチマークであるDEEPEVALを紹介する。
本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
- 参考スコア(独自算出の注目度): 31.541610325408975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the deep semantics of images is essential in the era dominated
by social media. However, current research works primarily on the superficial
description of images, revealing a notable deficiency in the systematic
investigation of the inherent deep semantics. In this work, we introduce
DEEPEVAL, a comprehensive benchmark to assess Large Multimodal Models' (LMMs)
capacities of visual deep semantics. DEEPEVAL includes human-annotated dataset
and three progressive subtasks: fine-grained description selection, in-depth
title matching, and deep semantics understanding. Utilizing DEEPEVAL, we
evaluate 9 open-source LMMs and GPT-4V(ision).Our evaluation demonstrates a
substantial gap between the deep semantic comprehension capabilities of
existing LMMs and humans. For example, GPT-4V is 30% behind humans in
understanding deep semantics, even though it achieves human-comparable
performance in image description. Further analysis indicates that the
integration of description texts during the inference process notably enhances
LMMs' ability to perceive deep semantics. Furthermore, our dataset is divided
into multiple categories, and we conducted a more detailed analysis within
these categories.
- Abstract(参考訳): 画像の深い意味を理解することは、ソーシャルメディアが支配する時代において不可欠である。
しかし、現在の研究は、主に画像の表層的記述に取り組んでおり、本質的な深層意味論の体系的研究において顕著な欠陥が明らかにされている。
本研究では,視覚深層セマンティクスの大規模マルチモーダルモデル(LMM)能力を評価するための総合的なベンチマークであるDEEPEVALを紹介する。
DEEPEVALには、人間の注釈付きデータセットと、3つのプログレッシブサブタスクが含まれている。
DEEPEVALを用いて9つのオープンソースLMMとGPT-4V(ision)を評価した。
本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
さらに分析した結果,推論過程における記述テキストの統合により,LMMの深い意味を知覚する能力が顕著に向上することが示唆された。
さらに,データセットを複数のカテゴリに分割し,これらのカテゴリについてより詳細な分析を行った。
関連論文リスト
- Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Democratizing Fine-grained Visual Recognition with Large Language Models [80.49811421427167]
画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。
FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性によって引き起こされる。
本研究では,大規模言語モデル (LLM) の世界の知識をプロキシとして内部的に活用する,きめ細かなセマンティックカテゴリー推論(FineR)を提案する。
トレーニングフリーのFineRは、最先端のFGVRや言語、ビジョンアシスタントモデルより優れており、野生や新しい領域で働くことを約束しています。
論文 参考訳(メタデータ) (2024-01-24T22:28:26Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models [101.16192912740595]
本稿では、文脈に敏感なテキストリッチな視覚的推論を行うLMMの能力を評価するための新しいベンチマークであるConTextualを紹介する。
LMM, GPT-4V(ision), 人体能力の30.8%に有意な差が認められた。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。
咬合・感性分析(因果性を含む)にインスパイアされた1つの方法
別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文 参考訳(メタデータ) (2023-08-31T07:53:02Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。