論文の概要: Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences
- arxiv url: http://arxiv.org/abs/2401.10529v1
- Date: Fri, 19 Jan 2024 07:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:45:44.763379
- Title: Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences
- Title(参考訳): Mementos: 画像シーケンスに対するマルチモーダル大規模言語モデル推論のための総合ベンチマーク
- Authors: Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong
He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong
Huang
- Abstract要約: 本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
- 参考スコア(独自算出の注目度): 80.54979242912944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated proficiency in
handling a variety of visual-language tasks. However, current MLLM benchmarks
are predominantly designed to evaluate reasoning based on static information
about a single image, and the ability of modern MLLMs to extrapolate from image
sequences, which is essential for understanding our ever-changing world, has
been less investigated. To address this challenge, this paper introduces
Mementos, a new benchmark designed to assess MLLMs' sequential image reasoning
abilities. Mementos features 4,761 diverse image sequences with varying
lengths. We also employ a GPT-4 assisted method to evaluate MLLM reasoning
performance. Through a careful evaluation of nine recent MLLMs on Mementos,
including GPT-4V and Gemini, we find that they struggle to accurately describe
dynamic information about given image sequences, often leading to
hallucinations/misrepresentations of objects and their corresponding behaviors.
Our quantitative analysis and case studies identify three key factors impacting
MLLMs' sequential image reasoning: the correlation between object and
behavioral hallucinations, the influence of cooccurring behaviors, and the
compounding impact of behavioral hallucinations. Our dataset is available at
https://github.com/umd-huang-lab/Mementos.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクを扱う能力を示す。
しかし、現在のMLLMベンチマークは、単一の画像に関する静的情報に基づいて推論を評価するために主に設計されており、現代のMLLMが画像列から外挿する能力は、常に変化する世界を理解するのに欠かせないものである。
そこで本稿では,MLLMの逐次的画像推論能力を評価するためのベンチマークであるMementosを紹介する。
Mementosには4,761の多様な画像シーケンスがあり、長さは様々である。
また,GPT-4を用いたMLLM推論性能の評価を行った。
GPT-4V や Gemini を含む最近の9つの Mementos 上でのMLLM の慎重な評価により、与えられた画像列の動的情報を正確に記述することは困難であり、しばしば幻覚/誤表現やそれに対応する行動を引き起こす。
定量的解析とケーススタディにより,mllmsの逐次的画像推論に影響を与える3つの重要な要因,対象と行動の幻覚の相関,共起行動の影響,行動幻覚の複合的影響が同定された。
私たちのデータセットはhttps://github.com/umd-huang-lab/mementosで利用可能です。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - MMRel: A Relation Understanding Dataset and Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、Multi-Modal Large Language Models (MLLM)とのオブジェクト間関係を研究するための包括的データセットである。
MMRelには3つの特徴がある: (i) 大規模かつ高い多様性を保証する3つの異なるドメインから得られる15K以上の質問応答ペア; (ii) MLLMが幻覚によってしばしば失敗する非常に珍しい関係を持つサブセットを含む; (iii) オブジェクト間関係のために手作業で検証された高品質なラベルを提供する。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Temporal Insight Enhancement: Mitigating Temporal Hallucination in
Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文 参考訳(メタデータ) (2024-01-18T10:18:48Z) - Towards Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal LLMs [12.598351373932234]
MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。
視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。
MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
論文 参考訳(メタデータ) (2023-10-24T17:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。