論文の概要: Libra: Building Decoupled Vision System on Large Language Models
- arxiv url: http://arxiv.org/abs/2405.10140v1
- Date: Thu, 16 May 2024 14:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:52:46.369862
- Title: Libra: Building Decoupled Vision System on Large Language Models
- Title(参考訳): Libra: 大規模言語モデルに基づく疎結合ビジョンシステムの構築
- Authors: Yifan Xu, Xiaoshan Yang, Yaguang Song, Changsheng Xu,
- Abstract要約: 大規模言語モデル(LLM)上の分離視覚システムを備えたプロトタイプモデルLibraを紹介する。
分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。
- 参考スコア(独自算出の注目度): 63.28088885230901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Libra, a prototype model with a decoupled vision system on a large language model (LLM). The decoupled vision system decouples inner-modal modeling and cross-modal interaction, yielding unique visual information modeling and effective cross-modal comprehension. Libra is trained through discrete auto-regressive modeling on both vision and language inputs. Specifically, we incorporate a routed visual expert with a cross-modal bridge module into a pretrained LLM to route the vision and language flows during attention computing to enable different attention patterns in inner-modal modeling and cross-modal interaction scenarios. Experimental results demonstrate that the dedicated design of Libra achieves a strong MLLM baseline that rivals existing works in the image-to-text scenario with merely 50 million training data, providing a new perspective for future multimodal foundation models. Code is available at https://github.com/YifanXu74/Libra.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) 上の視覚系を分離したプロトタイプモデルであるLibraを紹介する。
分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。
Libraは視覚と言語入力の両方で個別の自動回帰モデリングによって訓練される。
具体的には,内部モーダルモデリングと相互モーダル相互作用のシナリオにおいて異なる注意パターンを実現するために,横断モーダルブリッジモジュールを用いたルーティングされたビジュアルエキスパートを,注意計算中に視覚と言語の流れをルーティングするために事前訓練されたLLMに組み込む。
実験の結果、Libraの専用設計は、5000万のトレーニングデータで既存の画像とテキストのシナリオで競合する強力なMLLMベースラインを実現し、将来のマルチモーダル基盤モデルに対する新たな視点を提供することが示された。
コードはhttps://github.com/YifanXu74/Libra.comで入手できる。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [21.500920290909843]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。