論文の概要: EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.06788v1
- Date: Mon, 10 Feb 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:41.644208
- Title: EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
- Title(参考訳): EVEv2:エンコーダフリービジョンランゲージモデルのためのベースラインの改善
- Authors: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang,
- Abstract要約: 既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
- 参考スコア(独自算出の注目度): 72.07868838411474
- License:
- Abstract: Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.
- Abstract(参考訳): 既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースのモデルと性能ギャップを急速に狭め、構造的単純さと効率的なデプロイメントを備えた統一マルチモーダルシステムの可能性を強調している。
我々は,事前に訓練された視覚エンコーダ,離散トークン化器,最小限の視覚層を用いて,VLMの性能ギャップを系統的に明らかにし,エンコーダフリーなVLMの過小評価特性を深く掘り下げた。
我々は,主流のエンコーダベースと競合するエンコーダフリーVLMの効率的な戦略を開発する。
詳細な調査の後、我々は新しいエンコーダフリーVLMファミリーであるEVEv2.0をローンチした。
以下に示す。
一 統一モデルにおける視覚と言語を適切に分解し、階層的に関連付けることにより、モダリティ間の干渉を減らすこと。
(II) エンコーダフリーVLMの効率的な最適化を実現するための, 十分に設計されたトレーニング戦略。
EVEv2.0は、広範囲な評価を通じて、デコーダのみのアーキテクチャをモダリティを越えて開発するための徹底的な研究であり、優れたデータ効率と強力なビジョン推論能力を示す。
コードは、https://github.com/baaivision/EVE.comで公開されている。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models [26.88977803220915]
視覚言語モデル内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。
提案手法では,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2024-07-23T14:39:40Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。