論文の概要: StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data
- arxiv url: http://arxiv.org/abs/2308.10253v2
- Date: Thu, 28 Dec 2023 03:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:38:26.711393
- Title: StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data
- Title(参考訳): StableLLaVA: 合成画像ダイアログデータによるビジュアルインストラクションチューニングの強化
- Authors: Yanda Li, Chi Zhang, Gang Yu, Zhibin Wang, Bin Fu, Guosheng Lin,
Chunhua Shen, Ling Chen, Yunchao Wei
- Abstract要約: 本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
- 参考スコア(独自算出の注目度): 129.92449761766025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable multimodal capabilities demonstrated by OpenAI's GPT-4 have
sparked significant interest in the development of multimodal Large Language
Models (LLMs). A primary research objective of such models is to align visual
and textual modalities effectively while comprehending human instructions.
Current methodologies often rely on annotations derived from benchmark datasets
to construct image-dialogue datasets for training purposes, akin to instruction
tuning in LLMs. However, these datasets often exhibit domain bias, potentially
constraining the generative capabilities of the models. In an effort to
mitigate these limitations, we propose a novel data collection methodology that
synchronously synthesizes images and dialogues for visual instruction tuning.
This approach harnesses the power of generative models, marrying the abilities
of ChatGPT and text-to-image generative models to yield a diverse and
controllable dataset with varied image content. Additionally, datasets can be
arbitrarily scaled. This not only provides greater flexibility compared to
existing methodologies but also significantly enhances several model
capabilities. Our research includes comprehensive experiments conducted on
various datasets. The results emphasize substantial enhancements in more than
ten commonly assessed capabilities. Additionally, our model achieves
state-of-the-art results across multiple widely recognized multimodal
benchmarks.
- Abstract(参考訳): OpenAIのGPT-4で実証された顕著なマルチモーダル機能は、マルチモーダルなLarge Language Models (LLM) の開発に大きな関心を呼んだ。
このようなモデルの主な研究目的は、人間の指示を解釈しながら視覚とテキストのモダリティを効果的に整列させることである。
現在の方法論は、LLMのインストラクションチューニングと同様に、トレーニング目的のために画像対話データセットを構築するために、ベンチマークデータセットから派生したアノテーションに依存していることが多い。
しかし、これらのデータセットはしばしばドメインバイアスを示し、モデルの生成能力を制限する可能性がある。
これらの制約を緩和するために,視覚インストラクションチューニングのために画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力を組み合わせることで、さまざまな画像コンテンツを持つ多種多様な制御可能なデータセットを生成する。
さらに、データセットを任意にスケールできる。
これは既存の方法論よりも柔軟性が向上するだけでなく、いくつかのモデル能力を大幅に向上させる。
本研究は,各種データセットを対象とした総合的な実験を含む。
その結果、一般的に評価される10以上の能力の大幅な向上が強調された。
さらに,複数のマルチモーダルベンチマークで最新の結果を得ることができた。
関連論文リスト
- MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Learning Sequential Latent Variable Models from Multimodal Time Series
Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。
提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-04-21T21:59:24Z) - Genetic Programming for Evolving a Front of Interpretable Models for
Data Visualisation [4.4181317696554325]
GPtSNEという遺伝的プログラミング手法を用いて,データセットから高品質な可視化へ解釈可能なマッピングを進化させる手法を提案する。
多目的アプローチは、視覚的品質とモデルの複雑さの間に異なるトレードオフをもたらす、単一の実行で様々な可視化を生成するように設計されている。
論文 参考訳(メタデータ) (2020-01-27T04:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。