論文の概要: VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models
- arxiv url: http://arxiv.org/abs/2312.04087v1
- Date: Thu, 7 Dec 2023 06:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:53:35.702811
- Title: VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models
- Title(参考訳): VRPTEST: 大規模マルチモーダルモデルにおける視覚参照プロンプトの評価
- Authors: Zongjie Li, Chaozheng Wang, Chaowei Liu, Pingchuan Ma, Daoyuan Wu,
Shuai Wang, Cuiyun Gao
- Abstract要約: 我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
- 参考スコア(独自算出の注目度): 19.32035955420203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advancements in Large Multimodal Models (LMMs) across various
domains, a novel prompting method called visual referring prompting has
emerged, showing significant potential in enhancing human-computer interaction
within multimodal systems. This method offers a more natural and flexible
approach to human interaction with these systems compared to traditional text
descriptions or coordinates. However, the categorization of visual referring
prompting remains undefined, and its impact on the performance of LMMs has yet
to be formally examined. In this study, we conduct the first comprehensive
analysis of LMMs using a variety of visual referring prompting strategies. We
introduce a benchmark dataset called VRPTEST, comprising 3 different visual
tasks and 2,275 images, spanning diverse combinations of prompt strategies.
Using VRPTEST, we conduct a comprehensive evaluation of eight versions of
prominent open-source and proprietary foundation models, including two early
versions of GPT-4V. We develop an automated assessment framework based on
software metamorphic testing techniques to evaluate the accuracy of LMMs
without the need for human intervention or manual labeling. We find that the
current proprietary models generally outperform the open-source ones, showing
an average accuracy improvement of 22.70%; however, there is still potential
for improvement. Moreover, our quantitative analysis shows that the choice of
prompt strategy significantly affects the accuracy of LMMs, with variations
ranging from -17.5% to +7.3%. Further case studies indicate that an appropriate
visual referring prompting strategy can improve LMMs' understanding of context
and location information, while an unsuitable one might lead to answer
rejection. We also provide insights on minimizing the negative impact of visual
referring prompting on LMMs.
- Abstract(参考訳): 近年,様々な領域にまたがる大規模マルチモーダルモデル(lmms)の発展に伴い,視覚参照プロンプトと呼ばれる新しいプロンプト手法が登場し,マルチモーダルシステムにおけるヒューマン・コンピュータインタラクションの促進に有意な可能性がある。
この方法は、従来のテキスト記述や座標と比較して、より自然で柔軟なシステムとの相互作用のアプローチを提供する。
しかし、視覚的参照の分類は未定であり、LMMの性能への影響については公式には検討されていない。
本研究では,様々な視覚的参照促進戦略を用いて,LMMの包括的分析を行う。
3つの異なる視覚タスクと2,275のイメージからなるVRPTESTと呼ばれるベンチマークデータセットを導入し、プロンプト戦略の多様な組み合わせにまたがる。
我々はVRPTESTを用いて,GPT-4Vの初期バージョンを含む8種類の著名なオープンソースおよびプロプライエタリ基盤モデルの総合評価を行う。
我々は,人間の介入や手動ラベリングを必要とせずに,LMMの精度を評価するソフトウェアメタモルフィックテスト手法に基づく自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上しているが、改善の余地はある。
さらに、定量分析の結果、迅速な戦略の選択はLMMの精度に大きく影響し、-17.5%から+7.3%まで様々である。
さらなるケーススタディでは、適切な視覚的参照促進戦略により、LMMの文脈や位置情報に対する理解が向上し、不適切なものは拒否に答える可能性がある。
また,視覚的参照がLMMに与える影響を最小化するための洞察も提供する。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
Agents [47.420587592802775]
我々は,大規模言語モデル(LLM)を評価するための心理指標にインスパイアされた動的評価プロトコルを提案する。
MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力に関する心理測定理論に従って新しいものに自動的に変換する。
多面的解析により,基本能力とモデルサイズに対する暗黙的マシュー効果の強い相関が示された。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - Enhancing Multimodal Large Language Models with Vision Detection Models:
An Empirical Study [34.94523378724141]
本稿では,SOTA(State-of-the-art Object Detection)と光文字認識モデルを用いたMLLMの強化に関する実証的研究を行う。
我々は,LLaVA-1.5,DINO,PaddleOCRv2などのモデルを用いて系統的な実験を行い,MLLMの性能を向上するだけでなく,元の強みも維持することを示した。
その結果、MLLMは10ベンチマーク中9ベンチマークでSOTAモデルを上回っ、正規化平均スコアで最大12.99%向上した。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and
Symptom Analysis [2.4554686192257424]
大規模言語モデル(LLM)は最先端の人工知能技術である。
マルチモーダル多重選択質問紙を用いたLCMによる診断の正確性および正確性について検討した。
病理学の広い知識領域に含まれる幅広い疾患, 病態, 化学物質, 関連エンティティタイプについて検討した。
論文 参考訳(メタデータ) (2024-01-28T09:25:12Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。