論文の概要: VIGC: Visual Instruction Generation and Correction
- arxiv url: http://arxiv.org/abs/2308.12714v3
- Date: Sun, 4 Feb 2024 06:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:30:58.438205
- Title: VIGC: Visual Instruction Generation and Correction
- Title(参考訳): VIGC:ビジュアルインストラクション生成と修正
- Authors: Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang,
Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He
- Abstract要約: 視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。
LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。
本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.477290387002284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of visual encoders and large language models (LLMs) has
driven recent progress in multimodal large language models (MLLMs). However,
the scarcity of high-quality instruction-tuning data for vision-language tasks
remains a challenge. The current leading paradigm, such as LLaVA, relies on
language-only GPT-4 to generate data, which requires pre-annotated image
captions and detection bounding boxes, suffering from understanding image
details. A practical solution to this problem would be to utilize the available
multimodal large language models (MLLMs) to generate instruction data for
vision-language tasks. However, it's worth noting that the currently accessible
MLLMs are not as powerful as their LLM counterparts, as they tend to produce
inadequate responses and generate false information. As a solution for
addressing the current issue, this paper proposes the Visual Instruction
Generation and Correction (VIGC) framework that enables multimodal large
language models to generate instruction-tuning data and progressively enhance
its quality on-the-fly. Specifically, Visual Instruction Generation (VIG)
guides the vision-language model to generate diverse instruction-tuning data.
To ensure generation quality, Visual Instruction Correction (VIC) adopts an
iterative update mechanism to correct any inaccuracies in data produced by VIG,
effectively reducing the risk of hallucination. Leveraging the diverse,
high-quality data generated by VIGC, we finetune mainstream models and validate
data quality based on various evaluations. Experimental results demonstrate
that VIGC not only compensates for the shortcomings of language-only data
generation methods, but also effectively enhances the benchmark performance.
The models, datasets, and code are available at
https://opendatalab.github.io/VIGC.
- Abstract(参考訳): 視覚エンコーダと大言語モデル(LLM)の統合により、マルチモーダル大言語モデル(MLLM)が近年進歩している。
しかし、視覚言語タスクのための高品質な指導訓練データの不足は依然として課題である。
llavaのような現在のリードパラダイムは、データを生成するのに言語のみのgpt-4に依存しており、画像の詳細を理解するのに苦しむ、注釈付き画像キャプションと検出バウンディングボックスを必要とする。
この問題に対する実用的な解決策は、多モーダル大規模言語モデル(MLLM)を使用して視覚言語タスクの命令データを生成することである。
しかし、現在アクセス可能なMLLMは、不十分な応答を生成し、誤った情報を生成する傾向があるため、LLMのそれほど強力ではないことに注意する必要がある。
本稿では,この問題を解決するために,マルチモーダル大規模言語モデルが命令チューニングデータを生成し,その品質を段階的に向上できるヴィジュアルインストラクション生成・修正(vigc)フレームワークを提案する。
具体的には、視覚インストラクション生成(VIG)が視覚言語モデルをガイドし、多様なインストラクションチューニングデータを生成する。
生成品質を確保するために、Visual Instruction Correction (VIC)は、VIGが生成したデータの不正確性を補正する反復的な更新機構を採用し、幻覚のリスクを効果的に低減する。
VIGCが生成する多様で高品質なデータを活用することで、主流モデルを微調整し、さまざまな評価に基づいてデータ品質を検証する。
実験結果から,VIGCは言語のみのデータ生成手法の欠点を補うだけでなく,ベンチマーク性能を効果的に向上することが示された。
モデル、データセット、コードはhttps://opendatalab.github.io/VIGCで公開されている。
関連論文リスト
- Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - PiVe: Prompting with Iterative Verification Improving Graph-based Generative Capability of LLMs [28.33598529903845]
大規模言語モデルの出力の検証モジュールとして機能するために,小言語モデルをいかに訓練するかを示す。
また,検証モジュールがテキスト・ツー・グラフ生成タスクに対して,よりコスト効率のよいソリューションのために,繰り返し修正をオフラインで適用できることを示す。
論文 参考訳(メタデータ) (2023-05-21T08:11:24Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。