論文の概要: VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models
- arxiv url: http://arxiv.org/abs/2312.04087v1
- Date: Thu, 7 Dec 2023 06:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:53:35.702811
- Title: VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models
- Title(参考訳): VRPTEST: 大規模マルチモーダルモデルにおける視覚参照プロンプトの評価
- Authors: Zongjie Li, Chaozheng Wang, Chaowei Liu, Pingchuan Ma, Daoyuan Wu,
Shuai Wang, Cuiyun Gao
- Abstract要約: 我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
- 参考スコア(独自算出の注目度): 19.32035955420203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advancements in Large Multimodal Models (LMMs) across various
domains, a novel prompting method called visual referring prompting has
emerged, showing significant potential in enhancing human-computer interaction
within multimodal systems. This method offers a more natural and flexible
approach to human interaction with these systems compared to traditional text
descriptions or coordinates. However, the categorization of visual referring
prompting remains undefined, and its impact on the performance of LMMs has yet
to be formally examined. In this study, we conduct the first comprehensive
analysis of LMMs using a variety of visual referring prompting strategies. We
introduce a benchmark dataset called VRPTEST, comprising 3 different visual
tasks and 2,275 images, spanning diverse combinations of prompt strategies.
Using VRPTEST, we conduct a comprehensive evaluation of eight versions of
prominent open-source and proprietary foundation models, including two early
versions of GPT-4V. We develop an automated assessment framework based on
software metamorphic testing techniques to evaluate the accuracy of LMMs
without the need for human intervention or manual labeling. We find that the
current proprietary models generally outperform the open-source ones, showing
an average accuracy improvement of 22.70%; however, there is still potential
for improvement. Moreover, our quantitative analysis shows that the choice of
prompt strategy significantly affects the accuracy of LMMs, with variations
ranging from -17.5% to +7.3%. Further case studies indicate that an appropriate
visual referring prompting strategy can improve LMMs' understanding of context
and location information, while an unsuitable one might lead to answer
rejection. We also provide insights on minimizing the negative impact of visual
referring prompting on LMMs.
- Abstract(参考訳): 近年,様々な領域にまたがる大規模マルチモーダルモデル(lmms)の発展に伴い,視覚参照プロンプトと呼ばれる新しいプロンプト手法が登場し,マルチモーダルシステムにおけるヒューマン・コンピュータインタラクションの促進に有意な可能性がある。
この方法は、従来のテキスト記述や座標と比較して、より自然で柔軟なシステムとの相互作用のアプローチを提供する。
しかし、視覚的参照の分類は未定であり、LMMの性能への影響については公式には検討されていない。
本研究では,様々な視覚的参照促進戦略を用いて,LMMの包括的分析を行う。
3つの異なる視覚タスクと2,275のイメージからなるVRPTESTと呼ばれるベンチマークデータセットを導入し、プロンプト戦略の多様な組み合わせにまたがる。
我々はVRPTESTを用いて,GPT-4Vの初期バージョンを含む8種類の著名なオープンソースおよびプロプライエタリ基盤モデルの総合評価を行う。
我々は,人間の介入や手動ラベリングを必要とせずに,LMMの精度を評価するソフトウェアメタモルフィックテスト手法に基づく自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上しているが、改善の余地はある。
さらに、定量分析の結果、迅速な戦略の選択はLMMの精度に大きく影響し、-17.5%から+7.3%まで様々である。
さらなるケーススタディでは、適切な視覚的参照促進戦略により、LMMの文脈や位置情報に対する理解が向上し、不適切なものは拒否に答える可能性がある。
また,視覚的参照がLMMに与える影響を最小化するための洞察も提供する。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。
LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (2024-10-03T17:36:33Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study [32.57246173437492]
本稿では,SOTA(State-of-the-art Object Detection)モデルとOCR(Optical Character Recognition)モデルを用いてMLLMの高機能化に関する実証的研究を行った。
LLaVA-1.5, DINO, PaddleOCRv2, Grounding DINOなどの代表モデルを用いて, 系統的および広範囲な実験を行った。
強化されたLLaVA-1.5は、オリジナルの7B/13Bモデルを10ベンチマークすべてで上回り、正規化平均スコアで最大12.5%向上した。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。