論文の概要: SVIT: Scaling up Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2307.04087v1
- Date: Sun, 9 Jul 2023 03:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 15:40:52.290488
- Title: SVIT: Scaling up Visual Instruction Tuning
- Title(参考訳): SVIT: Visual Instruction Tuningのスケールアップ
- Authors: Bo Zhao, Boya Wu, Tiejun Huang
- Abstract要約: 我々は、1.6Mの会話質問応答対と1.6Mの複雑な推論QA対を含む320万の視覚的命令チューニングデータセットを構築した。
SVIT上でのマルチモーダルモデルのトレーニングは、視覚的知覚、推論、プランニングの観点から、多モーダル性能を著しく向上させることができることを実証的に検証する。
- 参考スコア(独自算出の注目度): 21.35119852107308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the emerging of foundation models, the large language and vision
models are integrated to acquire the multimodal ability of visual captioning,
dialogue, question answering, etc. Although existing multimodal models present
impressive performance of visual understanding and reasoning, their limits are
still largely under-explored due to the scarcity of high-quality instruction
tuning data. To push the limits of multimodal capability, we Sale up Visual
Instruction Tuning (SVIT) by constructing a dataset of 3.2 million visual
instruction tuning data including 1.6M conversation question-answer (QA) pairs
and 1.6M complex reasoning QA pairs and 106K detailed image descriptions.
Besides the volume, the proposed dataset is also featured by the high quality
and rich diversity, which is generated by prompting GPT-4 with the abundant
manual annotations of images. We empirically verify that training multimodal
models on SVIT can significantly improve the multimodal performance in terms of
visual perception, reasoning and planing.
- Abstract(参考訳): 基礎モデルの出現により、大きな言語とビジョンモデルは統合され、視覚的キャプション、対話、質問応答などのマルチモーダル機能を取得する。
既存のマルチモーダルモデルは、視覚的理解と推論の印象的な性能を示すが、高品質な命令チューニングデータの不足のため、その限界は依然としてほとんど未熟である。
マルチモーダル能力の限界を押し上げるために,1.6mの会話質問応答(qa)ペアと1.6mの複雑な推論qaペアと106kの詳細な画像記述を含む320万の視覚的命令チューニングデータのデータセットを構築し,視覚命令チューニング(svit)を売り出す。
ボリュームに加えて,画像の豊富な手動アノテーションでGPT-4を誘導することにより,高品質で豊富な多様性を特徴付けるデータセットも提案されている。
SVIT上でのマルチモーダルモデルのトレーニングは,視覚的知覚や推論,計画といった面で,多モーダル性能を大幅に向上させることができることを実証的に検証した。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning [74.34171839925114]
MLLM(Multimodal large language model)の新しいファミリーであるMM1.5を提案する。
我々のモデルは1Bから30Bのパラメータで、密度と混合スペクトル(MoE)の両方を含む。
最終設計を知らせるトレーニングプロセスと決定について、詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-30T17:59:34Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models [7.056824589733873]
MLLM(Multi-modal large language model)は、実運用における画像とテキストの相互変換のマルチターンクエリをサポートすることが期待されている。
現在のMLLMは、視覚的な問合せのデータセットで訓練されており、劣化に悩まされる可能性がある。
そこで本研究では,MLLMの言語能力の回復と向上を図った,細粒度アノテーションを用いた蒸留法に基づくマルチモーダルアライメントモデルを提案する。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。