Fugu-MT 論文翻訳(概要): Can Large Multimodal Models Uncover Deep Semantics Behind Images?

論文の概要: Can Large Multimodal Models Uncover Deep Semantics Behind Images?

arxiv url: http://arxiv.org/abs/2402.11281v1
Date: Sat, 17 Feb 2024 13:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 22:26:48.553022
Title: Can Large Multimodal Models Uncover Deep Semantics Behind Images?
Title（参考訳）: 大規模マルチモーダルモデルで画像の奥深くのセマンティックスを発見できるのか?
Authors: Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui
Abstract要約: 本稿では,大規模マルチモーダルモデルの視覚的深層セマンティクス能力を評価するための総合ベンチマークであるDEEPEVALを紹介する。本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
参考スコア（独自算出の注目度）: 31.541610325408975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the deep semantics of images is essential in the era dominated by social media. However, current research works primarily on the superficial description of images, revealing a notable deficiency in the systematic investigation of the inherent deep semantics. In this work, we introduce DEEPEVAL, a comprehensive benchmark to assess Large Multimodal Models' (LMMs) capacities of visual deep semantics. DEEPEVAL includes human-annotated dataset and three progressive subtasks: fine-grained description selection, in-depth title matching, and deep semantics understanding. Utilizing DEEPEVAL, we evaluate 9 open-source LMMs and GPT-4V(ision).Our evaluation demonstrates a substantial gap between the deep semantic comprehension capabilities of existing LMMs and humans. For example, GPT-4V is 30% behind humans in understanding deep semantics, even though it achieves human-comparable performance in image description. Further analysis indicates that the integration of description texts during the inference process notably enhances LMMs' ability to perceive deep semantics. Furthermore, our dataset is divided into multiple categories, and we conducted a more detailed analysis within these categories.
Abstract（参考訳）: 画像の深い意味を理解することは、ソーシャルメディアが支配する時代において不可欠である。しかし、現在の研究は、主に画像の表層的記述に取り組んでおり、本質的な深層意味論の体系的研究において顕著な欠陥が明らかにされている。本研究では,視覚深層セマンティクスの大規模マルチモーダルモデル(LMM)能力を評価するための総合的なベンチマークであるDEEPEVALを紹介する。 DEEPEVALには、人間の注釈付きデータセットと、3つのプログレッシブサブタスクが含まれている。 DEEPEVALを用いて9つのオープンソースLMMとGPT-4V(ision)を評価した。本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。さらに分析した結果,推論過程における記述テキストの統合により,LMMの深い意味を知覚する能力が顕著に向上することが示唆された。さらに,データセットを複数のカテゴリに分割し,これらのカテゴリについてより詳細な分析を行った。

関連論文リスト

Bridging Perception and Language: A Systematic Benchmark for LVLMs' Understanding of Amodal Completion Reports [10.925743866700037]
本研究では,アモーダル完了に関連するテキストに基づいて,大規模視覚言語モデルの推論能力について検討する。以上の結果から,LVLMは人間に比較可能な性能を全般的に達成するが,その精度は特定の種類のオブジェクトに対してばらつきが生じることが示唆された。興味深いことに、この格差は日本語のプロンプトの下でのみ出現し、これらのモデルにおいて日本語固有の言語能力の欠如が示唆されている。
論文参考訳（メタデータ） (2025-07-08T09:06:47Z)
HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
DeepSPG: Exploring Deep Semantic Prior Guidance for Low-light Image Enhancement with Multimodal Learning [0.0]
低照度画像強調のためのRetinex画像分解に基づく新しいディープセマンティック事前誘導フレームワーク(DeepSPG)を提案する。提案したDeepSPGは,5つのベンチマークデータセットを対象とした最先端手法と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2025-04-27T06:56:07Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:27:02Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? [32.61269125015993]
StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。 StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。 GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
論文参考訳（メタデータ） (2025-02-19T18:04:44Z)
HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文参考訳（メタデータ） (2024-06-09T15:14:26Z)
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。 34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文参考訳（メタデータ） (2024-04-25T07:08:00Z)
Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。 Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文参考訳（メタデータ） (2024-03-26T16:10:21Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-12-26T15:44:09Z)
Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。咬合・感性分析(因果性を含む)にインスパイアされた1つの方法別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文参考訳（メタデータ） (2023-08-31T07:53:02Z)
Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。 MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文参考訳（メタデータ） (2022-09-27T04:49:19Z)
Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-08-08T15:39:54Z)
SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware Feature Extraction [27.750031877854717]
本稿では,セマンティック情報を活用して光度損失の限界を克服するSAFENetを提案する。私たちのキーとなるアイデアは、意味的知識と幾何学的知識を統合するセマンティック・アウェア・ディープ機能を活用することです。 KITTIデータセットの実験では、我々の手法が最先端の手法と競合するか、さらに優れています。
論文参考訳（メタデータ） (2020-10-06T17:22:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。