論文の概要: COCO is "ALL'' You Need for Visual Instruction Fine-tuning
- arxiv url: http://arxiv.org/abs/2401.08968v1
- Date: Wed, 17 Jan 2024 04:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:01:15.930517
- Title: COCO is "ALL'' You Need for Visual Instruction Fine-tuning
- Title(参考訳): COCOは、ビジュアルインストラクションの微調整に必要な「すべて」
- Authors: Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang
- Abstract要約: ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
- 参考スコア(独自算出の注目度): 39.438410070172125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) are increasingly prominent in the
field of artificial intelligence. Visual instruction fine-tuning (IFT) is a
vital process for aligning MLLMs' output with user's intentions. High-quality
and diversified instruction following data is the key to this fine-tuning
process. Recent studies propose to construct visual IFT datasets through a
multifaceted approach: transforming existing datasets with rule-based
templates, employing GPT-4 for rewriting annotations, and utilizing GPT-4V for
visual dataset pseudo-labeling. LLaVA-1.5 adopted similar approach and
construct LLaVA-mix-665k, which is one of the simplest, most widely used, yet
most effective IFT datasets today. Notably, when properly fine-tuned with this
dataset, MLLMs can achieve state-of-the-art performance on several benchmarks.
However, we noticed that models trained with this dataset often struggle to
follow user instructions properly in multi-round dialog. In addition, tradition
caption and VQA evaluation benchmarks, with their closed-form evaluation
structure, are not fully equipped to assess the capabilities of modern
open-ended generative MLLMs. This problem is not unique to the LLaVA-mix-665k
dataset, but may be a potential issue in all IFT datasets constructed from
image captioning or VQA sources, though the extent of this issue may vary. We
argue that datasets with diverse and high-quality detailed instruction
following annotations are essential and adequate for MLLMs IFT. In this work,
we establish a new IFT dataset, with images sourced from the COCO dataset along
with more diverse instructions. Our experiments show that when fine-tuned with
out proposed dataset, MLLMs achieve better performance on open-ended evaluation
benchmarks in both single-round and multi-round dialog setting.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
高品質で多様なデータに基づく命令が、この微調整プロセスの鍵となる。
近年の研究では、既存のデータセットをルールベースのテンプレートで変換し、アノテーションの書き直しにGPT-4を、ビジュアルデータセットの擬似ラベルにGPT-4Vを活用する、多面的アプローチによる視覚IFTデータセットの構築が提案されている。
LLaVA-1.5も同様のアプローチを採用し、LLaVA-mix-665kを構築した。
特に、このデータセットを適切に微調整すると、MLLMはいくつかのベンチマークで最先端のパフォーマンスを達成できる。
しかし、このデータセットでトレーニングされたモデルは、マルチラウンドダイアログで適切にユーザー指示に従うのに苦労していることに気付きました。
さらに, 従来のキャプションとVQA評価ベンチマークは, そのクローズドフォーム評価構造とともに, 現代のオープンエンド生成MLLMの能力を評価するために完全には装備されていない。
この問題はLLaVA-mix-665kデータセットに固有のものではないが、画像キャプションやVQAソースから構築された全てのIFTデータセットで潜在的な問題となる可能性がある。
MLLMのIFTには,アノテーションによる多様で高品質な詳細な命令を持つデータセットが不可欠である。
本研究では,COCOデータセットから取得した画像と,より多様なインストラクションを備えた新しいIFTデータセットを確立する。
提案したデータセットを微調整すると,MLLMは単一ラウンドおよび複数ラウンドのダイアログ設定において,オープンエンド評価ベンチマークの性能が向上することを示す。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Multi-modal preference alignment remedies regression of visual
instruction tuning on language model [7.9311636400991485]
そこで本研究では,小データセットに細粒度アノテーションを付加した蒸留方式のマルチモーダルアライメントモデルを提案する。
以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。