論文の概要: Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
- arxiv url: http://arxiv.org/abs/2412.04424v1
- Date: Thu, 05 Dec 2024 18:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:14.116893
- Title: Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
- Title(参考訳): Florence-VL: 生成的ビジョンエンコーダと深度ブレンド融合によるビジョンランゲージモデルの強化
- Authors: Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao,
- Abstract要約: 本稿では,Floence-2で生成したリッチな視覚表現を備えたマルチモーダル大規模言語モデル(MLLM)のファミリーであるFloence-VLを紹介する。
本研究では,フローレンス2の視覚的特徴を予め訓練されたLLMに効果的に統合する,新しい特徴融合アーキテクチャと革新的な学習レシピを提案する。
Florence-VLは、様々なマルチモーダルおよびビジョン中心のベンチマークにおいて、最先端のMLLMよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 83.62294567506076
- License:
- Abstract: We present Florence-VL, a new family of multimodal large language models (MLLMs) with enriched visual representations produced by Florence-2, a generative vision foundation model. Unlike the widely used CLIP-style vision transformer trained by contrastive learning, Florence-2 can capture different levels and aspects of visual features, which are more versatile to be adapted to diverse downstream tasks. We propose a novel feature-fusion architecture and an innovative training recipe that effectively integrates Florence-2's visual features into pretrained LLMs, such as Phi 3.5 and LLama 3. In particular, we propose "depth-breath fusion (DBFusion)" to fuse the visual features extracted from different depths and under multiple prompts. Our model training is composed of end-to-end pretraining of the whole model followed by finetuning of the projection layer and the LLM, on a carefully designed recipe of diverse open-source datasets that include high-quality image captions and instruction-tuning pairs. Our quantitative analysis and visualization of Florence-VL's visual features show its advantages over popular vision encoders on vision-language alignment, where the enriched depth and breath play important roles. Florence-VL achieves significant improvements over existing state-of-the-art MLLMs across various multi-modal and vision-centric benchmarks covering general VQA, perception, hallucination, OCR, Chart, knowledge-intensive understanding, etc. To facilitate future research, our models and the complete training recipe are open-sourced. https://github.com/JiuhaiChen/Florence-VL
- Abstract(参考訳): 本稿では,多モーダル大規模言語モデル(MLLM)の新たなファミリーであるFlorence-VLについて紹介する。
対照的な学習によって訓練されたCLIPスタイルの視覚変換器とは異なり、Florence-2は様々なレベルの視覚的特徴を捉えることができる。
本稿では,フィレンツェ2の視覚的特徴をPhi 3.5 や LLama 3 のような事前学習された LLM に効果的に統合する,新しい特徴融合アーキテクチャと革新的な学習レシピを提案する。
特に,異なる深度および複数のプロンプトから抽出した視覚的特徴を融合させる「深呼吸融合(DBFusion)」を提案する。
我々のモデルトレーニングは、高品質な画像キャプションと命令調整ペアを含む様々なオープンソースデータセットを慎重に設計したレシピに基づいて、モデル全体をエンドツーエンドに事前トレーニングし、続いてプロジェクション層とLCMを微調整する。
フローレンスVLの視覚的特徴の定量的分析と可視化は、深度と呼吸が重要な役割を果たす視覚言語アライメントにおいて、一般的な視覚エンコーダよりも有利であることを示す。
Florence-VLは、一般的なVQA、知覚、幻覚、OCR、チャート、知識集約的理解などをカバーする様々なマルチモーダルおよびビジョン中心のベンチマークにおいて、既存の最先端MLLMよりも大幅に改善されている。
今後の研究を促進するため、我々のモデルと完全なトレーニングレシピはオープンソース化されている。
https://github.com/JiuhaiChen/Florence-VL
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Ovis: Structural Embedding Alignment for Multimodal Large Language Model [41.32013722697081]
Ovisは、視覚とテキストの埋め込みを構造的に整列するように設計された新しいMLLMアーキテクチャである。
Ovisは学習可能なビジュアル埋め込みテーブルをビジュアルエンコーダのプロセスに統合する。
様々なマルチモーダルベンチマークにおける実証的な評価は、OvisがオープンソースMLLMよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-31T13:59:18Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Florence-2: Advancing a Unified Representation for a Variety of Vision
Tasks [94.49801814314435]
本稿では,様々なコンピュータビジョンと視覚言語タスクを対象とした,統一的,即時的な表現を備えた新しい視覚基盤モデルであるFlorence-2を紹介する。
われわれはFLD-5Bを共同開発し、1億2600万枚の画像に540億個の包括的な視覚アノテーションを付加した。
我々は,フローレンス2を訓練し,汎用的で総合的な視覚タスクを実行するためにシーケンス・ツー・シーケンス構造を採用した。
論文 参考訳(メタデータ) (2023-11-10T18:59:08Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。