Fugu-MT 論文翻訳(概要): VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal Models

論文の概要: VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal Models

arxiv url: http://arxiv.org/abs/2312.04087v1
Date: Thu, 7 Dec 2023 06:53:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 15:53:35.702811
Title: VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal Models
Title（参考訳）: VRPTEST: 大規模マルチモーダルモデルにおける視覚参照プロンプトの評価
Authors: Zongjie Li, Chaozheng Wang, Chaowei Liu, Pingchuan Ma, Daoyuan Wu, Shuai Wang, Cuiyun Gao
Abstract要約: 我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
参考スコア（独自算出の注目度）: 19.32035955420203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With recent advancements in Large Multimodal Models (LMMs) across various domains, a novel prompting method called visual referring prompting has emerged, showing significant potential in enhancing human-computer interaction within multimodal systems. This method offers a more natural and flexible approach to human interaction with these systems compared to traditional text descriptions or coordinates. However, the categorization of visual referring prompting remains undefined, and its impact on the performance of LMMs has yet to be formally examined. In this study, we conduct the first comprehensive analysis of LMMs using a variety of visual referring prompting strategies. We introduce a benchmark dataset called VRPTEST, comprising 3 different visual tasks and 2,275 images, spanning diverse combinations of prompt strategies. Using VRPTEST, we conduct a comprehensive evaluation of eight versions of prominent open-source and proprietary foundation models, including two early versions of GPT-4V. We develop an automated assessment framework based on software metamorphic testing techniques to evaluate the accuracy of LMMs without the need for human intervention or manual labeling. We find that the current proprietary models generally outperform the open-source ones, showing an average accuracy improvement of 22.70%; however, there is still potential for improvement. Moreover, our quantitative analysis shows that the choice of prompt strategy significantly affects the accuracy of LMMs, with variations ranging from -17.5% to +7.3%. Further case studies indicate that an appropriate visual referring prompting strategy can improve LMMs' understanding of context and location information, while an unsuitable one might lead to answer rejection. We also provide insights on minimizing the negative impact of visual referring prompting on LMMs.
Abstract（参考訳）: 近年,様々な領域にまたがる大規模マルチモーダルモデル(lmms)の発展に伴い,視覚参照プロンプトと呼ばれる新しいプロンプト手法が登場し,マルチモーダルシステムにおけるヒューマン・コンピュータインタラクションの促進に有意な可能性がある。この方法は、従来のテキスト記述や座標と比較して、より自然で柔軟なシステムとの相互作用のアプローチを提供する。しかし、視覚的参照の分類は未定であり、LMMの性能への影響については公式には検討されていない。本研究では,様々な視覚的参照促進戦略を用いて,LMMの包括的分析を行う。 3つの異なる視覚タスクと2,275のイメージからなるVRPTESTと呼ばれるベンチマークデータセットを導入し、プロンプト戦略の多様な組み合わせにまたがる。我々はVRPTESTを用いて,GPT-4Vの初期バージョンを含む8種類の著名なオープンソースおよびプロプライエタリ基盤モデルの総合評価を行う。我々は,人間の介入や手動ラベリングを必要とせずに,LMMの精度を評価するソフトウェアメタモルフィックテスト手法に基づく自動評価フレームワークを開発した。現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上しているが、改善の余地はある。さらに、定量分析の結果、迅速な戦略の選択はLMMの精度に大きく影響し、-17.5%から+7.3%まで様々である。さらなるケーススタディでは、適切な視覚的参照促進戦略により、LMMの文脈や位置情報に対する理解が向上し、不適切なものは拒否に答える可能性がある。また,視覚的参照がLMMに与える影響を最小化するための洞察も提供する。

関連論文リスト

Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models [10.828419851213528]
人間の生活の一般的な6つのシナリオをカバーする500以上の画像を含む多次元インサイト(Multi-dimensional Insights)ベンチマークを提案する。この設計により、異なる年齢集団の好みやニーズを満たすLMMの能力を詳細に評価することができる。今後、MDI-BenchmarkがLMMにおける現実のパーソナライゼーションを整合させる新たな経路を開拓することを期待している。
論文参考訳（メタデータ） (2024-12-17T07:06:10Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文参考訳（メタデータ） (2024-10-03T17:36:33Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study [32.57246173437492]
本稿では,SOTA(State-of-the-art Object Detection)モデルとOCR(Optical Character Recognition)モデルを用いてMLLMの高機能化に関する実証的研究を行った。 LLaVA-1.5, DINO, PaddleOCRv2, Grounding DINOなどの代表モデルを用いて, 系統的および広範囲な実験を行った。強化されたLLaVA-1.5は、オリジナルの7B/13Bモデルを10ベンチマークすべてで上回り、正規化平均スコアで最大12.5%向上した。
論文参考訳（メタデータ） (2024-01-31T16:38:32Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
On the Robustness of Large Multimodal Models Against Image Adversarial Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。一般的に,LMMは視覚的逆入力に対して頑健ではない。本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-06T04:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。