Fugu-MT 論文翻訳(概要): Unveiling Encoder-Free Vision-Language Models

論文の概要: Unveiling Encoder-Free Vision-Language Models

arxiv url: http://arxiv.org/abs/2406.11832v2
Date: Tue, 29 Oct 2024 06:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.764064
Title: Unveiling Encoder-Free Vision-Language Models
Title（参考訳）: 復号化エンコーダフリービジョンランゲージモデル
Authors: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang,
Abstract要約: 既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。 EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
参考スコア（独自算出の注目度）: 62.52803514667452
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing vision-language models (VLMs) mostly rely on vision encoders to extract visual features followed by large language models (LLMs) for visual-language tasks. However, the vision encoders set a strong inductive bias in abstracting visual representation, e.g., resolution, aspect ratio, and semantic priors, which could impede the flexibility and efficiency of the VLMs. Training pure VLMs that accept the seamless vision and language inputs, i.e., without vision encoders, remains challenging and rarely explored. Empirical observations reveal that direct training without encoders results in slow convergence and large performance gaps. In this work, we bridge the gap between encoder-based and encoder-free models, and present a simple yet effective training recipe towards pure VLMs. Specifically, we unveil the key aspects of training encoder-free VLMs efficiently via thorough experiments: (1) Bridging vision-language representation inside one unified decoder; (2) Enhancing visual recognition capability via extra supervision. With these strategies, we launch EVE, an encoder-free vision-language model that can be trained and forwarded efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can impressively rival the encoder-based VLMs of similar capacities across multiple vision-language benchmarks. It significantly outperforms the counterpart Fuyu-8B with mysterious training procedures and undisclosed training data. We believe that EVE provides a transparent and efficient route for developing a pure decoder-only architecture across modalities. Our code and models are publicly available at: https://github.com/baaivision/EVE.
Abstract（参考訳）: 既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。しかし、視覚エンコーダは視覚表現、例えば解像度、アスペクト比、セマンティック事前を抽象化する際に強い帰納バイアスを課し、VLMの柔軟性と効率を阻害する可能性がある。シームレスな視覚と言語入力を受け入れる純粋なVLMの訓練、すなわち視覚エンコーダなしでは困難であり、ほとんど探索されない。実験的な観察により、エンコーダを使わずに直接訓練することで、収束が遅く、大きなパフォーマンスギャップが生じることが明らかになった。本研究では,エンコーダベースモデルとエンコーダフリーモデルとのギャップを埋めるとともに,純粋なVLMに対するシンプルで効果的なトレーニングレシピを提案する。具体的には、1つの統合デコーダ内で視覚言語表現をブリッジすること、(2)余分な監督によって視覚認識能力を高めること、といった徹底的な実験を通して、エンコーダフリーのVLMを効率的に訓練するための重要な側面を明らかにする。これらの戦略により、エンコーダなしの視覚言語モデルであるEVEを効率的に訓練し、前進させることができる。注目すべきなのは、EVEは3500万の公開データのみを活用することで、複数のヴィジュアルベンチマークで同様の能力を持つエンコーダベースのVLMに匹敵する。これは、謎のトレーニング手順と未公表のトレーニングデータで、相手のFuyu-8Bよりも大幅に優れています。 EVEは、モダリティを越えて純粋なデコーダのみのアーキテクチャを開発するために、透過的で効率的な経路を提供すると考えている。私たちのコードとモデルは、https://github.com/baaivision/EVE.comで公開されています。

関連論文リスト

BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries [37.37905881898424]
マルチモーダル大言語モデル(MLLM)は、言語モデルの前に画像トークンを直接処理することで、よく訓練された視覚エンコーダの必要性をなくす。視覚エンコーダが存在しないことは、モデルが必要な視覚的・意味的なアライメントを学習するために、かなりのデータに依存する可能性が高いことを示唆している。この問題を緩和するデータ効率のよいエンコーダフリーマルチモーダルアーキテクチャであるBREENを提案する。
論文参考訳（メタデータ） (2025-03-16T10:43:14Z)
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文参考訳（メタデータ） (2025-02-10T18:59:58Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models [26.88977803220915]
視覚言語モデル内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。提案手法では,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅な性能向上を実現した。
論文参考訳（メタデータ） (2024-07-23T14:39:40Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。 Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。 Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-08-23T07:36:30Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文参考訳（メタデータ） (2022-04-22T04:41:04Z)
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。 MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文参考訳（メタデータ） (2021-11-03T17:20:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。