論文の概要: SVIT: Scaling up Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2307.04087v2
- Date: Sat, 9 Sep 2023 03:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:28:49.994480
- Title: SVIT: Scaling up Visual Instruction Tuning
- Title(参考訳): SVIT: Visual Instruction Tuningのスケールアップ
- Authors: Bo Zhao, Boya Wu, Tiejun Huang
- Abstract要約: 我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
SVIT上でのマルチモーダルモデルのトレーニングは、視覚的知覚、推論、プランニングの観点から、多モーダル性能を著しく向上させることができることを実証的に検証する。
- 参考スコア(独自算出の注目度): 30.11483943469215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 4.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs,
1.6M complex reasoning QA pairs, 1.0M referring QA pairs and 106K detailed
image descriptions. Besides the volume, the proposed dataset is also featured
by the high quality and rich diversity, which is generated by prompting GPT-4
with the abundant manual annotations of images. We empirically verify that
training multimodal models on SVIT can significantly improve the multimodal
performance in terms of visual perception, reasoning and planing.
- Abstract(参考訳): 基礎モデルの出現により、大きな言語とビジョンモデルは統合され、視覚的キャプション、対話、質問応答などのマルチモーダル機能を取得する。
既存のマルチモーダルモデルは、視覚的理解と推論の印象的な性能を示すが、高品質な命令チューニングデータの不足のため、その限界は依然としてほとんど未熟である。
マルチモーダル能力の限界を押し上げるために,160mの会話質問応答(qa)ペア,1.6mの複雑な推論qaペア,1.0mの参照qaペア,106kの詳細な画像記述を含む420万の視覚的命令チューニングデータを構成することにより,視覚的命令チューニング(svit)を売り出す。
ボリュームに加えて,画像の豊富な手動アノテーションでGPT-4を誘導することにより,高品質で豊富な多様性を特徴付けるデータセットも提案されている。
SVIT上でのマルチモーダルモデルのトレーニングは,視覚的知覚や推論,計画といった面で,多モーダル性能を大幅に向上させることができることを実証的に検証した。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multi-modal preference alignment remedies regression of visual
instruction tuning on language model [7.9311636400991485]
そこで本研究では,小データセットに細粒度アノテーションを付加した蒸留方式のマルチモーダルアライメントモデルを提案する。
以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。