論文の概要: LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2306.09265v1
- Date: Thu, 15 Jun 2023 16:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:45:37.781708
- Title: LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models
- Title(参考訳): LVLM-eHub:大規模視覚言語モデルの総合評価ベンチマーク
- Authors: Peng Xu, Wenqi Shao, Kaipeng Zhang, Peng Gao, Shuo Liu, Meng Lei,
Fanqing Meng, Siyuan Huang, Yu Qiao, Ping Luo
- Abstract要約: 本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
- 参考スコア(独自算出の注目度): 55.304181390027274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have recently played a dominant role in
multimodal vision-language learning. Despite the great success, it lacks a
holistic evaluation of their efficacy. This paper presents a comprehensive
evaluation of publicly available large multimodal models by building a LVLM
evaluation Hub (LVLM-eHub). Our LVLM-eHub consists of $8$ representative LVLMs
such as InstructBLIP and MiniGPT-4, which are thoroughly evaluated by a
quantitative capability evaluation and an online arena platform. The former
evaluates $6$ categories of multimodal capabilities of LVLMs such as visual
question answering and embodied artificial intelligence on $47$ standard
text-related visual benchmarks, while the latter provides the user-level
evaluation of LVLMs in an open-world question-answering scenario. The study
reveals several innovative findings. First, instruction-tuned LVLM with massive
in-domain data such as InstructBLIP heavily overfits many existing tasks,
generalizing poorly in the open-world scenario. Second, instruction-tuned LVLM
with moderate instruction-following data may result in object hallucination
issues (i.e., generate objects that are inconsistent with target images in the
descriptions). It either makes the current evaluation metric such as CIDEr for
image captioning ineffective or generates wrong answers. Third, employing a
multi-turn reasoning evaluation framework can mitigate the issue of object
hallucination, shedding light on developing an effective pipeline for LVLM
evaluation. The findings provide a foundational framework for the conception
and assessment of innovative strategies aimed at enhancing zero-shot multimodal
techniques. Our LVLM-eHub will be available at
https://github.com/OpenGVLab/Multi-Modality-Arena
- Abstract(参考訳): LVLM(Large Vision-Language Models)は近年,マルチモーダル視覚言語学習において重要な役割を担っている。
大きな成功にもかかわらず、その効果の総合的な評価が欠けている。
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの総合評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
前者は47ドルの標準テキスト関連ビジュアルベンチマークで視覚的質問応答や具体的人工知能などのLVLMのマルチモーダル能力のカテゴリを6ドル評価し、後者はオープンワールドの質問回答シナリオにおけるLVLMのユーザレベル評価を提供する。
この研究はいくつかの革新的な発見を示している。
まず、インストラクトBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
第二に、適度な命令追従データを持つ命令調整LVLMは、オブジェクト幻覚(すなわち、記述中のターゲット画像と矛盾するオブジェクト)を引き起こす可能性がある。
画像キャプションのCIDErのような現在の評価基準は効果がないか、間違った回答を生成する。
第3に、マルチターン推論評価フレームワークを用いることで、オブジェクト幻覚の問題を軽減し、LVLM評価のための効果的なパイプラインの開発に光を当てることができる。
本研究は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを提供する。
LVLM-eHubはhttps://github.com/OpenGVLab/Multi-Modality-Arenaで公開されます。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models [86.85389322710674]
この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。
LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。
視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-08-07T17:17:05Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。