論文の概要: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
- arxiv url: http://arxiv.org/abs/2311.12793v1
- Date: Tue, 21 Nov 2023 18:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 23:28:22.493002
- Title: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
- Title(参考訳): sharegpt4v: 大きなマルチモーダルモデルの改善とキャプションの改善
- Authors: Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang,
Feng Zhao, Dahua Lin
- Abstract要約: 120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
- 参考スコア(独自算出の注目度): 81.56616346858888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of large multi-modal models (LMMs), efficient modality alignment
is crucial yet often constrained by the scarcity of high-quality image-text
data. To address this bottleneck, we introduce the ShareGPT4V dataset, a
pioneering large-scale resource featuring 1.2 million highly descriptive
captions, which surpasses existing datasets in diversity and information
content, covering world knowledge, object properties, spatial relationships,
and aesthetic evaluations. Specifically, ShareGPT4V originates from a curated
100K high-quality captions collected from advanced GPT4-Vision and has been
expanded to 1.2M with a superb caption model trained on this subset. ShareGPT4V
first demonstrates its effectiveness for the Supervised Fine-Tuning (SFT)
phase, by substituting an equivalent quantity of detailed captions in existing
SFT datasets with a subset of our high-quality captions, significantly
enhancing the LMMs like LLaVA-7B, LLaVA-1.5-13B, and Qwen-VL-Chat-7B on the MME
and MMBench benchmarks, with respective gains of 222.8/22.0/22.3 and
2.7/1.3/1.5. We further incorporate ShareGPT4V data into both the pre-training
and SFT phases, obtaining ShareGPT4V-7B, a superior LMM based on a simple
architecture that has remarkable performance across a majority of the
multi-modal benchmarks. This project is available at
https://ShareGPT4V.github.io to serve as a pivotal resource for advancing the
LMMs community.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の領域では、高画質の画像テキストデータの不足により、効率的なモダリティアライメントが不可欠である。
このボトルネックに対処するため,世界知識,オブジェクト特性,空間関係,美的評価を網羅し,多様性と情報内容の既存のデータセットを超越した120万の高説明キャプションを備えた大規模リソースであるShareGPT4Vデータセットを紹介した。
具体的には、ShareGPT4Vは、高度なGPT4-Visionから収集された100Kの高品質キャプションから生まれ、このサブセットで訓練されたスーパーキャプションモデルで1.2Mに拡張されている。
ShareGPT4Vは、既存のSFTデータセットの詳細なキャプションを高品質なキャプションのサブセットに置き換え、MMEおよびMMBenchベンチマークにおけるLLaVA-7B、LLaVA-1.5-13B、Qwen-VL-Chat-7BなどのLMMを大幅に強化し、それぞれ222.8/22.0/22.3と2.7/1.3/1.5のゲインを付与することで、SFT(Supervised Fine-Tuning)フェーズの有効性を最初に示す。
さらに、事前学習とSFTフェーズの両方にShareGPT4Vデータを組み込み、マルチモーダルベンチマークの大部分で顕著な性能を持つ単純なアーキテクチャに基づく優れたLMMであるShareGPT4V-7Bを得る。
このプロジェクトはhttps://ShareGPT4V.github.ioで公開されており、LMMコミュニティを前進させるための重要なリソースとなっている。
関連論文リスト
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [21.905041803331113]
VLM(Vision-Language Models)は近年大きな進歩を遂げているが、オープンソースの命令データの規模や品質に制限があるため、その性能は損なわれている。
Infinity-MMは4000万のサンプルを持つ大規模マルチモーダル・インストラクション・データセットであり、厳密な品質のフィルタリングと重複によって強化されている。
また,詳細な画像アノテーションと多様な質問生成を用いた,オープンソースのVLMに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning [82.34463739289892]
LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-13T18:59:31Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。