論文の概要: OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2505.04601v1
- Date: Wed, 07 May 2025 17:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.175477
- Title: OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
- Title(参考訳): OpenVision:マルチモーダル学習のための高度なビジョンエンコーダの完全オープンで費用効果の高いファミリー
- Authors: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie,
- Abstract要約: OpenVisionは、LLaVAのようなマルチモーダルフレームワークに統合された場合、OpenAIのCLIPのパフォーマンスにマッチまたは上回るビジョンエンコーダのファミリーである。
5.9Mから632.1Mパラメータにまたがるビジョンエンコーダをリリースすることにより、OpenVisionは、マルチモーダルモデルを構築する際のキャパシティと効率の間の柔軟なトレードオフを提供する。
- 参考スコア(独自算出の注目度): 27.827671579139903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OpenAI's CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI's CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for training framework and Recap-DataComp-1B for training data -- while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.
- Abstract(参考訳): OpenAIのCLIPは2021年初頭にリリースされ、長い間、マルチモーダル基盤モデルを構築するためのビジョンエンコーダの選択肢であった。
SigLIPのような最近の代替手段はこの現状に挑戦し始めているが、私たちの知る限り、そのトレーニングデータはプロプライエタリであり、あるいはトレーニングレシピはリリースされていない。
このギャップを、LLaVAのようなマルチモーダルフレームワークに統合された場合、OpenAIのCLIPのパフォーマンスに適合または超える、完全にオープンで費用対効果の高いビジョンエンコーダであるOpenVisionで埋める。
OpenVisionは、トレーニングフレームワーク用のCLIPS、トレーニングデータのためのRecap-DataComp-1Bといった既存の作業の上に構築されている。
5.9Mから632.1Mパラメータにまたがるビジョンエンコーダをリリースすることにより、OpenVisionは、マルチモーダルモデルを構築する際のキャパシティと効率の間の柔軟なトレードオフを提供する。
関連論文リスト
- EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized
Multimodal Framework [51.01581167257862]
UnifiedVisionGPTは、SOTAビジョンモデルの統合と自動化を目的とした新しいフレームワークである。
本稿では,UnifiedVisionGPTのアーキテクチャと機能について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2023-11-16T13:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。