論文の概要: Honeybee: Locality-enhanced Projector for Multimodal LLM
- arxiv url: http://arxiv.org/abs/2312.06742v2
- Date: Mon, 1 Apr 2024 03:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:33:25.261829
- Title: Honeybee: Locality-enhanced Projector for Multimodal LLM
- Title(参考訳): Honeybee:マルチモーダルLDMの局所性向上プロジェクター
- Authors: Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh,
- Abstract要約: マルチモーダル大言語モデル(MLLM)を用いた事前学習型視覚エンコーダのブリッジにおける視覚プロジェクタの役割
i)視覚的トークン数管理の柔軟性,MLLMの全体的な効率に不可欠なこと,および(ii)視覚的特徴から局所的なコンテキストを保存すること,および空間的理解に不可欠なこと,の2つの重要なプロジェクター特性を同定する。
本稿では,2つの望ましい特性を効果的に満たし,フレキシブルかつ局所性に富んだ新しいプロジェクタ設計を提案する。
- 参考スコア(独自算出の注目度): 8.541469408161495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)では、学習済みの視覚エンコーダをLLMでブリッジする上で、視覚プロジェクタが重要な役割を果たす。
ビジュアルプロジェクターの重要性にもかかわらず、比較的調査が進んでいない。
本研究では,まず2つの重要なプロジェクター特性を同定する。
一 視覚トークンの個数管理の柔軟性、MLLMの全体的な効率に欠かせないこと、及び
(II)視覚的特徴からの局所的文脈の保存,空間的理解に不可欠である。
これらの知見に基づき, フレキシブルかつ局所性に富んだ新規プロジェクタの設計を提案し, 2つの望ましい特性を効果的に満たした。
さらに,複数の命令データセットを効果的に活用するための包括的戦略を提案する。
広範囲な実験を通じて,個々の設計選択の影響について検討する。
最後に,提案するMLLM,Honeybeeは,MME,MMBench,SEED-Bench,LLaVA-Benchなど,様々なベンチマークにおいて従来の最先端手法よりも優れ,高い効率を実現している。
コードとモデルはhttps://github.com/kakaobrain/honeybee.comで入手できる。
関連論文リスト
- Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation [10.468784974994465]
マルチモーダル言語モデル(MLLM)におけるプロジェクタの役割
プロジェクタに関する現在の調査では、効率を改善するために視覚トークンの数を減らすことに重点を置いている。
この問題に対処するために空間認識効率プロジェクタ(SAEP)を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:25:09Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。