論文の概要: To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2311.07574v2
- Date: Wed, 29 Nov 2023 15:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:16:50.254809
- Title: To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning
- Title(参考訳): GPT-4Vを改良したビジュアルインストラクションチューニングの試行
- Authors: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 82.34463739289892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual instruction tuning methods typically prompt large language
models with textual descriptions to generate instruction-following data.
Despite the promising performance achieved, these descriptions are derived from
image annotations, which are oftentimes coarse-grained. Furthermore, the
instructions might even contradict the visual content without observing the
entire visual context. To address this challenge, we introduce a fine-grained
visual instruction dataset, LVIS-Instruct4V, which contains 220K visually
aligned and context-aware instructions produced by prompting the powerful
GPT-4V with images from LVIS. Through experimental validation and case studies,
we demonstrate that high-quality visual instructional data could improve the
performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a
wide spectrum of benchmarks by clear margins. Notably, by simply replacing the
LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA
on most challenging LMM benchmarks, e.g., LLaVA$^w$ (76.7 vs. 70.7) and MM-Vet
(40.2 vs. 35.4). We release our data and model at
https://github.com/X2FD/LVIS-INSTRUCT4V.
- Abstract(参考訳): 既存の視覚インストラクションチューニング手法は、通常、テキスト記述を持つ大きな言語モデルに命令追従データを生成するように促す。
達成される有望な性能にもかかわらず、これらの記述は、しばしば粗い粒度の画像アノテーションに由来する。
さらに、命令は視覚的コンテキスト全体を観察せずに視覚的内容と矛盾することもある。
この課題に対処するために,220Kの視覚的アライメントと,LVISの画像で強力なGPT-4Vをプロンプトすることで生成されたコンテキスト認識命令を含む,きめ細かい視覚的インストラクションデータセットLVIS-Instruct4Vを導入する。
実験的な検証とケーススタディを通じて、高品質なビジュアルインストラクションデータが、最先端の大規模マルチモーダルモデルであるllava-1.5の性能を、広い範囲のベンチマークでクリアマージンで改善できることを実証する。
例えば、LLaVA$^w$ (76.7 vs. 70.7) や MM-Vet (40.2 vs. 35.4) といった最も難しい LMM ベンチマークでは、LLaVA-Instruct を LVIS-Instruct4V に置き換えることで、LLaVA よりも優れた結果が得られる。
我々は、データとモデルをhttps://github.com/X2FD/LVIS-INSTRUCT4Vでリリースします。
関連論文リスト
- MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment [39.407235223184195]
MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。
大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-06-28T08:25:27Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Prompt4Vis: Prompting Large Language Models with Example Mining and
Schema Filtering for Tabular Data Visualization [13.425454489560376]
本稿では,自然言語からデータビジュアライゼーションクエリを生成するフレームワークであるPrompt4Visを紹介する。
データビジュアライゼーションクエリを生成するためのテキスト・ツー・ビジュアリーに、インコンテキスト・ラーニングが導入される。
Prompt4Visは最先端(SOTA)のRGVisNetを約35.9%、開発とテストセットで71.3%上回っている。
論文 参考訳(メタデータ) (2024-01-29T10:23:47Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。