Fugu-MT 論文翻訳(概要): To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

論文の概要: To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2311.07574v2
Date: Wed, 29 Nov 2023 15:37:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 03:16:50.254809
Title: To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
Title（参考訳）: GPT-4Vを改良したビジュアルインストラクションチューニングの試行
Authors: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
Abstract要約: LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。 LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
参考スコア（独自算出の注目度）: 82.34463739289892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing visual instruction tuning methods typically prompt large language models with textual descriptions to generate instruction-following data. Despite the promising performance achieved, these descriptions are derived from image annotations, which are oftentimes coarse-grained. Furthermore, the instructions might even contradict the visual content without observing the entire visual context. To address this challenge, we introduce a fine-grained visual instruction dataset, LVIS-Instruct4V, which contains 220K visually aligned and context-aware instructions produced by prompting the powerful GPT-4V with images from LVIS. Through experimental validation and case studies, we demonstrate that high-quality visual instructional data could improve the performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a wide spectrum of benchmarks by clear margins. Notably, by simply replacing the LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA on most challenging LMM benchmarks, e.g., LLaVA$^w$ (76.7 vs. 70.7) and MM-Vet (40.2 vs. 35.4). We release our data and model at https://github.com/X2FD/LVIS-INSTRUCT4V.
Abstract（参考訳）: 既存の視覚インストラクションチューニング手法は、通常、テキスト記述を持つ大きな言語モデルに命令追従データを生成するように促す。達成される有望な性能にもかかわらず、これらの記述は、しばしば粗い粒度の画像アノテーションに由来する。さらに、命令は視覚的コンテキスト全体を観察せずに視覚的内容と矛盾することもある。この課題に対処するために,220Kの視覚的アライメントと,LVISの画像で強力なGPT-4Vをプロンプトすることで生成されたコンテキスト認識命令を含む,きめ細かい視覚的インストラクションデータセットLVIS-Instruct4Vを導入する。実験的な検証とケーススタディを通じて、高品質なビジュアルインストラクションデータが、最先端の大規模マルチモーダルモデルであるllava-1.5の性能を、広い範囲のベンチマークでクリアマージンで改善できることを実証する。例えば、LLaVA$^w$ (76.7 vs. 70.7) や MM-Vet (40.2 vs. 35.4) といった最も難しい LMM ベンチマークでは、LLaVA-Instruct を LVIS-Instruct4V に置き換えることで、LLaVA よりも優れた結果が得られる。我々は、データとモデルをhttps://github.com/X2FD/LVIS-INSTRUCT4Vでリリースします。

関連論文リスト

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment [39.407235223184195]
MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
論文参考訳（メタデータ） (2024-06-28T08:25:27Z)
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文参考訳（メタデータ） (2024-02-18T19:38:44Z)
Prompt4Vis: Prompting Large Language Models with Example Mining and Schema Filtering for Tabular Data Visualization [13.425454489560376]
本稿では,自然言語からデータビジュアライゼーションクエリを生成するフレームワークであるPrompt4Visを紹介する。データビジュアライゼーションクエリを生成するためのテキスト・ツー・ビジュアリーに、インコンテキスト・ラーニングが導入される。 Prompt4Visは最先端(SOTA)のRGVisNetを約35.9%、開発とテストセットで71.3%上回っている。
論文参考訳（メタデータ） (2024-01-29T10:23:47Z)
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文参考訳（メタデータ） (2023-06-29T17:08:16Z)
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。 LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文参考訳（メタデータ） (2023-06-26T10:26:33Z)
Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文参考訳（メタデータ） (2023-04-17T17:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。