論文の概要: Can Large Multimodal Models Uncover Deep Semantics Behind Images?
- arxiv url: http://arxiv.org/abs/2402.11281v2
- Date: Mon, 3 Jun 2024 04:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:33:51.120622
- Title: Can Large Multimodal Models Uncover Deep Semantics Behind Images?
- Title(参考訳): 大規模マルチモーダルモデルで画像の奥深くのセマンティックスを発見できるのか?
- Authors: Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui,
- Abstract要約: 本稿では,大規模マルチモーダルモデルの視覚的深層セマンティクス能力を評価するための総合ベンチマークであるDEEPEVALを紹介する。
9つのオープンソースLMMとGPT-4V(ision)の評価
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
- 参考スコア(独自算出の注目度): 29.399943397718815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the deep semantics of images is essential in the era dominated by social media. However, current research works primarily on the superficial description of images, revealing a notable deficiency in the systematic investigation of the inherent deep semantics. In this work, we introduce DEEPEVAL, a comprehensive benchmark to assess Large Multimodal Models' (LMMs) capacities of visual deep semantics. DEEPEVAL includes human-annotated dataset and three progressive subtasks: fine-grained description selection, in-depth title matching, and deep semantics understanding. Utilizing DEEPEVAL, we evaluate 9 open-source LMMs and GPT-4V(ision). Our evaluation demonstrates a substantial gap between the deep semantic comprehension capabilities of existing LMMs and humans. For example, GPT-4V is 30% behind humans in understanding deep semantics, even though it achieves human-comparable performance in image description. Further analysis reveals that LMM performance on DEEPEVAL varies according to the specific facets of deep semantics explored, indicating the fundamental challenges remaining in developing LMMs.
- Abstract(参考訳): 画像の深い意味を理解することは、ソーシャルメディアが支配する時代において不可欠である。
しかし、現在の研究は主に表面的な画像の記述に焦点を当てており、本質的な深い意味論の体系的な研究において顕著な欠如が明らかになっている。
本研究では,視覚深層セマンティクスの大規模マルチモーダルモデル(LMM)能力を評価するための総合的なベンチマークであるDEEPEVALを紹介する。
DEEPEVALには、人間の注釈付きデータセットと、3つのプログレッシブサブタスクが含まれている。
DEEPEVALを用いて,9つのオープンソースLMMとGPT-4V(ision)を評価した。
本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
さらに分析した結果,DeEPEVALにおけるLMMの性能は,探索された深い意味論の特定の側面によって異なることが明らかとなり,LMMの開発に残る根本的な課題が示唆された。
関連論文リスト
- F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。
34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文 参考訳(メタデータ) (2024-04-25T07:08:00Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Democratizing Fine-grained Visual Recognition with Large Language Models [80.49811421427167]
画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。
FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性によって引き起こされる。
本研究では,大規模言語モデル (LLM) の世界の知識をプロキシとして内部的に活用する,きめ細かなセマンティックカテゴリー推論(FineR)を提案する。
トレーニングフリーのFineRは、最先端のFGVRや言語、ビジョンアシスタントモデルより優れており、野生や新しい領域で働くことを約束しています。
論文 参考訳(メタデータ) (2024-01-24T22:28:26Z) - Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。
咬合・感性分析(因果性を含む)にインスパイアされた1つの方法
別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文 参考訳(メタデータ) (2023-08-31T07:53:02Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware
Feature Extraction [27.750031877854717]
本稿では,セマンティック情報を活用して光度損失の限界を克服するSAFENetを提案する。
私たちのキーとなるアイデアは、意味的知識と幾何学的知識を統合するセマンティック・アウェア・ディープ機能を活用することです。
KITTIデータセットの実験では、我々の手法が最先端の手法と競合するか、さらに優れています。
論文 参考訳(メタデータ) (2020-10-06T17:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。