論文の概要: Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
- arxiv url: http://arxiv.org/abs/2403.18814v1
- Date: Wed, 27 Mar 2024 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:50:03.326459
- Title: Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
- Title(参考訳): Mini-Gemini:多モードビジョン言語モデルの可能性を探る
- Authors: Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia,
- Abstract要約: Mini-Geminiはマルチモーダルビジョン言語モデル(VLM)を強化するフレームワーク
Mini-Gemini は 2B から 34B までの一連の高密度および高密度な MoE 言語モデル (LLM) をサポートしている。
いくつかのゼロショットベンチマークで主要なパフォーマンスを達成でき、開発済みのプライベートモデルを超えている。
- 参考スコア(独自算出の注目度): 55.267193180769794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at https://github.com/dvlab-research/MiniGemini.
- Abstract(参考訳): 本稿では,マルチモーダル・ビジョン言語モデル(VLM)を改良した,シンプルかつ効果的なフレームワークであるMini-Geminiを紹介する。
基本的なビジュアルダイアログと推論を容易にするVLMの進歩にもかかわらず、パフォーマンスギャップはGPT-4やGeminiのような先進的なモデルと比べて持続する。
我々は、高解像度の視覚トークン、高品質データ、VLM誘導生成という3つの側面から、より良いパフォーマンスとあらゆるワークフローのためにVLMのポテンシャルをマイニングすることでギャップを狭めようとしている。
視覚的トークン数を増大させることなく,高精細化のための付加的な視覚的エンコーダを提案する。
さらに、画像の正確な理解と推論に基づく生成を促進する高品質なデータセットを構築し、現在のVLMの運用範囲を広げる。
一般に、Mini-GeminiはVLMの可能性をさらに掘り下げ、イメージ理解、推論、生成を同時に行う現在のフレームワークを強化する。
Mini-Gemini は 2B から 34B までの一連の高密度および高密度な MoE 言語モデル (LLM) をサポートしている。
いくつかのゼロショットベンチマークで主要なパフォーマンスを達成でき、開発済みのプライベートモデルを超えている。
コードとモデルはhttps://github.com/dvlab-research/MiniGemini.comで入手できる。
関連論文リスト
- MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。
MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。
さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文 参考訳(メタデータ) (2024-06-25T17:55:11Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。
言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文 参考訳(メタデータ) (2023-12-28T07:11:41Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。