論文の概要: HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding
- arxiv url: http://arxiv.org/abs/2412.16158v2
- Date: Sun, 09 Feb 2025 05:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:19.608609
- Title: HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding
- Title(参考訳): HoVLE: モノリシックなビジョンランゲージモデルとホロスティックなビジョンランゲージの埋め込み
- Authors: Chenxin Tao, Shiqian Su, Xizhou Zhu, Chenyu Zhang, Zhe Chen, Jiawen Liu, Wenhai Wang, Lewei Lu, Gao Huang, Yu Qiao, Jifeng Dai,
- Abstract要約: 本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 91.0552157725366
- License:
- Abstract: The rapid advance of Large Language Models (LLMs) has catalyzed the development of Vision-Language Models (VLMs). Monolithic VLMs, which avoid modality-specific encoders, offer a promising alternative to the compositional ones but face the challenge of inferior performance. Most existing monolithic VLMs require tuning pre-trained LLMs to acquire vision abilities, which may degrade their language capabilities. To address this dilemma, this paper presents a novel high-performance monolithic VLM named HoVLE. We note that LLMs have been shown capable of interpreting images, when image embeddings are aligned with text embeddings. The challenge for current monolithic VLMs actually lies in the lack of a holistic embedding module for both vision and language inputs. Therefore, HoVLE introduces a holistic embedding module that converts visual and textual inputs into a shared space, allowing LLMs to process images in the same way as texts. Furthermore, a multi-stage training strategy is carefully designed to empower the holistic embedding module. It is first trained to distill visual features from a pre-trained vision encoder and text embeddings from the LLM, enabling large-scale training with unpaired random images and text tokens. The whole model further undergoes next-token prediction on multi-modal data to align the embeddings. Finally, an instruction-tuning stage is incorporated. Our experiments show that HoVLE achieves performance close to leading compositional models on various benchmarks, outperforming previous monolithic models by a large margin. Model available at https://huggingface.co/OpenGVLab/HoVLE.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、視覚言語モデル(VLM)の開発を触媒している。
モダリティ固有のエンコーダを避けるモノリシックなVLMは、構成的なエンコーダに代わる有望な代替手段を提供するが、性能の劣る課題に直面している。
既存のモノリシックなVLMでは、視覚能力を得るためにトレーニング済みのLLMをチューニングする必要がある。
このジレンマに対処するために,本論文では,HoVLEという新しい高性能モノリシックVLMを提案する。
画像埋め込みがテキスト埋め込みと一致している場合、LLMは画像の解釈が可能なことが示されている。
現在のモノリシックなVLMの課題は、視覚と言語入力の両方に総合的な埋め込みモジュールがないことである。
したがって、HoVLEは、視覚的およびテキスト的な入力を共有空間に変換する総体的な埋め込みモジュールを導入し、LCMがテキストと同じ方法で画像を処理できるようにする。
さらに、総合的な埋め込みモジュールを強化するために、多段階のトレーニング戦略を慎重に設計する。
最初は、訓練済みの視覚エンコーダから視覚的特徴を抽出し、LLMからテキストを埋め込み、未使用のランダム画像とテキストトークンによる大規模なトレーニングを可能にするように訓練された。
モデル全体はさらに、埋め込みを整列させるために、マルチモーダルデータの次々に予測を行う。
最後に、インストラクションチューニングステージが組み込まれている。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能を示し,従来のモノリシックモデルよりも大きなマージンを達成できた。
モデルはhttps://huggingface.co/OpenGVLab/HoVLEで入手できる。
関連論文リスト
- Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。