論文の概要: Tiny LVLM-eHub: Early Multimodal Experiments with Bard
- arxiv url: http://arxiv.org/abs/2308.03729v1
- Date: Mon, 7 Aug 2023 17:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:45:45.465666
- Title: Tiny LVLM-eHub: Early Multimodal Experiments with Bard
- Title(参考訳): Tiny LVLM-eHub: Bardによる初期のマルチモーダル実験
- Authors: Wenqi Shao, Yutao Hu, Peng Gao, Meng Lei, Kaipeng Zhang, Fanqing Meng,
Peng Xu, Siyuan Huang, Hongsheng Li, Yu Qiao, Ping Luo
- Abstract要約: この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。
LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。
視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
- 参考スコア(独自算出の注目度): 70.09562030700954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated
significant progress in tackling complex multimodal tasks. Among these
cutting-edge developments, Google's Bard stands out for its remarkable
multimodal capabilities, promoting comprehensive comprehension and reasoning
across various domains. This work presents an early and holistic evaluation of
LVLMs' multimodal abilities, with a particular focus on Bard, by proposing a
lightweight variant of LVLM-eHub, named Tiny LVLM-eHub. In comparison to the
vanilla version, Tiny LVLM-eHub possesses several appealing properties.
Firstly, it provides a systematic assessment of six categories of multimodal
capabilities, including visual perception, visual knowledge acquisition, visual
reasoning, visual commonsense, object hallucination, and embodied intelligence,
through quantitative evaluation of $42$ standard text-related visual
benchmarks. Secondly, it conducts an in-depth analysis of LVLMs' predictions
using the ChatGPT Ensemble Evaluation (CEE), which leads to a robust and
accurate evaluation and exhibits improved alignment with human evaluation
compared to the word matching approach. Thirdly, it comprises a mere $2.1$K
image-text pairs, facilitating ease of use for practitioners to evaluate their
own offline LVLMs. Through extensive experimental analysis, this study
demonstrates that Bard outperforms previous LVLMs in most multimodal
capabilities except object hallucination, to which Bard is still susceptible.
Tiny LVLM-eHub serves as a baseline evaluation for various LVLMs and encourages
innovative strategies aimed at advancing multimodal techniques. Our project is
publicly available at \url{https://github.com/OpenGVLab/Multi-Modality-Arena}.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の最近の進歩は、複雑なマルチモーダルタスクに対処する上で大きな進歩を示している。
これら最先端の開発の中で、GoogleのBardは目覚ましいマルチモーダル機能で、包括的な理解とさまざまなドメインでの推論を促進している。
この研究は、Tiny LVLM-eHubという名前の軽量なLVLM-eHubを提案し、特にBardに焦点を当てた、LVLMのマルチモーダル能力の早期かつ総合的な評価を示す。
バニラ版と比較して、Tiny LVLM-eHubはいくつかの魅力的な特性を持っている。
まず、標準的なテキスト関連ビジュアルベンチマークの42ドルを定量的に評価することで、視覚的知覚、視覚的知識獲得、視覚的推論、視覚的コモンセンス、オブジェクト幻覚、エンボディドインテリジェンスを含む6つのカテゴリのマルチモーダル能力を体系的に評価する。
第2に,ChatGPT Ensemble Evaluation (CEE) を用いてLVLMの予測を詳細に分析し,単語マッチング手法と比較して,頑健で正確な評価を行い,人間の評価との整合性の向上を示す。
3つ目は、わずか2.1ドルのイメージテキストペアで、実践者が自身のオフラインLVLMを評価するのを容易にする。
広範な実験分析によって、bardは、bardがまだ影響を受けやすいオブジェクト幻覚を除いて、ほとんどのマルチモーダル機能において、以前のlvlmよりも優れていることが示されている。
tiny lvlm-ehubは様々なlvlmのベースライン評価であり、マルチモーダル技術の進歩を目的とした革新的な戦略を奨励している。
我々のプロジェクトは、 \url{https://github.com/OpenGVLab/Multi-Modality-Arena}で公開されています。
関連論文リスト
- Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。