論文の概要: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
- arxiv url: http://arxiv.org/abs/2311.12793v2
- Date: Tue, 28 Nov 2023 08:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 10:14:33.972222
- Title: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
- Title(参考訳): sharegpt4v: 大きなマルチモーダルモデルの改善とキャプションの改善
- Authors: Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang,
Feng Zhao, Dahua Lin
- Abstract要約: 120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
- 参考スコア(独自算出の注目度): 81.95879920888716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of large multi-modal models (LMMs), efficient modality alignment
is crucial yet often constrained by the scarcity of high-quality image-text
data. To address this bottleneck, we introduce the ShareGPT4V dataset, a
pioneering large-scale resource featuring 1.2 million highly descriptive
captions, which surpasses existing datasets in diversity and information
content, covering world knowledge, object properties, spatial relationships,
and aesthetic evaluations. Specifically, ShareGPT4V originates from a curated
100K high-quality captions collected from advanced GPT4-Vision and has been
expanded to 1.2M with a superb caption model trained on this subset. ShareGPT4V
first demonstrates its effectiveness for the Supervised Fine-Tuning (SFT)
phase, by substituting an equivalent quantity of detailed captions in existing
SFT datasets with a subset of our high-quality captions, significantly
enhancing the LMMs like LLaVA-7B, LLaVA-1.5-13B, and Qwen-VL-Chat-7B on the MME
and MMBench benchmarks, with respective gains of 222.8/22.0/22.3 and
2.7/1.3/1.5. We further incorporate ShareGPT4V data into both the pre-training
and SFT phases, obtaining ShareGPT4V-7B, a superior LMM based on a simple
architecture that has remarkable performance across a majority of the
multi-modal benchmarks. This project is available at
https://ShareGPT4V.github.io to serve as a pivotal resource for advancing the
LMMs community.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の領域では、高画質の画像テキストデータの不足により、効率的なモダリティアライメントが不可欠である。
このボトルネックに対処するため,世界知識,オブジェクト特性,空間関係,美的評価を網羅し,多様性と情報内容の既存のデータセットを超越した120万の高説明キャプションを備えた大規模リソースであるShareGPT4Vデータセットを紹介した。
具体的には、ShareGPT4Vは、高度なGPT4-Visionから収集された100Kの高品質キャプションから生まれ、このサブセットで訓練されたスーパーキャプションモデルで1.2Mに拡張されている。
ShareGPT4Vは、既存のSFTデータセットの詳細なキャプションを高品質なキャプションのサブセットに置き換え、MMEおよびMMBenchベンチマークにおけるLLaVA-7B、LLaVA-1.5-13B、Qwen-VL-Chat-7BなどのLMMを大幅に強化し、それぞれ222.8/22.0/22.3と2.7/1.3/1.5のゲインを付与することで、SFT(Supervised Fine-Tuning)フェーズの有効性を最初に示す。
さらに、事前学習とSFTフェーズの両方にShareGPT4Vデータを組み込み、マルチモーダルベンチマークの大部分で顕著な性能を持つ単純なアーキテクチャに基づく優れたLMMであるShareGPT4V-7Bを得る。
このプロジェクトはhttps://ShareGPT4V.github.ioで公開されており、LMMコミュニティを前進させるための重要なリソースとなっている。
関連論文リスト
- PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images [119.24323184581974]
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T12:04:11Z) - ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language
Model [46.538926240412465]
本研究の目的は、従来のLVLMとリソースフレンドリーなライトバージョンのパフォーマンスギャップを埋めることである。
合成データセットは、GPT-4Vの詳細なキャプションを生成する能力を活用して作成される。
結果、12ベンチマークで最大3B LVLMの競合性能が得られる。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning [82.34463739289892]
LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-13T18:59:31Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。