論文の概要: ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language
Model
- arxiv url: http://arxiv.org/abs/2402.11684v1
- Date: Sun, 18 Feb 2024 19:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:32:50.075714
- Title: ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language
Model
- Title(参考訳): alaVA:ライトビジョンランゲージモデルのためのGPT4V合成データのハーネス化
- Authors: Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo
Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, Benyou Wang
- Abstract要約: 本研究の目的は、従来のLVLMとリソースフレンドリーなライトバージョンのパフォーマンスギャップを埋めることである。
合成データセットは、GPT-4Vの詳細なキャプションを生成する能力を活用して作成される。
結果、12ベンチマークで最大3B LVLMの競合性能が得られる。
- 参考スコア(独自算出の注目度): 46.538926240412465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have enabled
processing of multimodal inputs in language models but require significant
computational resources for deployment, especially in edge devices. This study
aims to bridge the performance gap between traditional-scale LVLMs and
resource-friendly lite versions by adopting high-quality training data. To do
this, a synthetic dataset is created by leveraging GPT-4V's ability to generate
detailed captions, complex reasoning instructions and detailed answers from
images. The resulted model trained with our data, ALLaVA, achieves competitive
performance on 12 benchmarks up to 3B LVLMs. This work highlights the
feasibility of adopting high-quality data in crafting more efficient LVLMs. Our
online demo is available at \url{https://allava.freedomai.cn}.
- Abstract(参考訳): 近年の大型視覚言語モデル(lvlms)の進歩により、言語モデルにおけるマルチモーダル入力の処理が可能となったが、特にエッジデバイスでは重要な計算資源を必要とする。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
これを実現するために、gpt-4vの詳細なキャプション、複雑な推論命令、画像からの詳細な回答を生成する能力を利用して合成データセットを作成する。
得られたモデルであるALLaVAは、最大3B LVLMまでの12ベンチマークで競合性能を達成する。
この研究は、より効率的なLVLMを作成する際に高品質なデータを採用する可能性を強調している。
オンラインデモは \url{https://allava.freedomai.cn} で公開しています。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models [39.55942000935765]
視覚大言語モデル(VLLM)のための新しいデータ合成パイプラインであるSynthVLMを紹介する。
画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択する。
我々は、様々な視覚的質問応答タスクにおける最先端(SoTA)のパフォーマンスを達成し、高いアライメント品質を維持し、高度な言語能力を維持する。
論文 参考訳(メタデータ) (2024-07-30T11:57:40Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [27.930351465266515]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。