論文の概要: Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
- arxiv url: http://arxiv.org/abs/2408.15998v1
- Date: Wed, 28 Aug 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 14:59:16.322823
- Title: Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
- Title(参考訳): Eagle: エンコーダの混合によるマルチモーダルLLMの設計空間の探索
- Authors: Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu,
- Abstract要約: 本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
- 参考スコア(独自算出の注目度): 89.38717274524681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to accurately interpret complex visual information is a crucial topic of multimodal large language models (MLLMs). Recent work indicates that enhanced visual perception significantly reduces hallucinations and improves performance on resolution-sensitive tasks, such as optical character recognition and document analysis. A number of recent MLLMs achieve this goal using a mixture of vision encoders. Despite their success, there is a lack of systematic comparisons and detailed ablation studies addressing critical aspects, such as expert selection and the integration of multiple vision experts. This study provides an extensive exploration of the design space for MLLMs using a mixture of vision encoders and resolutions. Our findings reveal several underlying principles common to various existing strategies, leading to a streamlined yet effective design approach. We discover that simply concatenating visual tokens from a set of complementary vision encoders is as effective as more complex mixing architectures or strategies. We additionally introduce Pre-Alignment to bridge the gap between vision-focused encoders and language tokens, enhancing model coherence. The resulting family of MLLMs, Eagle, surpasses other leading open-source models on major MLLM benchmarks. Models and code: https://github.com/NVlabs/Eagle
- Abstract(参考訳): 複雑な視覚情報を正確に解釈する能力は、マルチモーダル大言語モデル(MLLM)の重要なトピックである。
近年の研究では、視覚知覚の強化は幻覚を著しく減らし、光学的文字認識や文書解析などの分解能に敏感なタスクの性能を向上させることが示されている。
近年のMLLMは、視覚エンコーダの混合を用いてこの目標を達成する。
彼らの成功にもかかわらず、体系的な比較の欠如と、専門家の選択や複数の視覚専門家の統合といった重要な側面に対処する詳細なアブレーション研究がある。
本研究は,視覚エンコーダと解像度の混合を用いたMLLMの設計空間を広範囲に探索する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
さらに、視覚中心のエンコーダと言語トークンのギャップを埋め、モデルコヒーレンスを高めるために、Pre-Alignmentを導入する。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
モデルとコード:https://github.com/NVlabs/Eagle
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Honeybee: Locality-enhanced Projector for Multimodal LLM [8.541469408161495]
マルチモーダル大言語モデル(MLLM)を用いた事前学習型視覚エンコーダのブリッジにおける視覚プロジェクタの役割
i)視覚的トークン数管理の柔軟性,MLLMの全体的な効率に不可欠なこと,および(ii)視覚的特徴から局所的なコンテキストを保存すること,および空間的理解に不可欠なこと,の2つの重要なプロジェクター特性を同定する。
本稿では,2つの望ましい特性を効果的に満たし,フレキシブルかつ局所性に富んだ新しいプロジェクタ設計を提案する。
論文 参考訳(メタデータ) (2023-12-11T18:59:06Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。