論文の概要: OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2509.01644v1
- Date: Mon, 01 Sep 2025 17:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.804034
- Title: OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
- Title(参考訳): OpenVision 2:マルチモーダル学習のための生成事前学習型ビジュアルエンコーダのファミリー
- Authors: Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie,
- Abstract要約: トレーニング効率を向上させるため,OpenVisionのアーキテクチャと損失設計を簡素化する。
OpenVision 2は、トレーニング時間とメモリ消費の両方を大幅に削減しながら、幅広いマルチモーダルベンチマークでオリジナルのモデルのパフォーマンスにマッチする。
この優れたトレーニング効率により、OpenVisionで使用されている最大のビジョンエンコーダをはるかに超え、10億以上のパラメータに到達することが可能になります。
- 参考スコア(独自算出の注目度): 68.04264015433857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
- Abstract(参考訳): 本稿では,OpenVisionのアーキテクチャと損失設計を簡略化し,トレーニング効率を向上させる。
従来の視覚言語による事前訓練作業であるCapPaとAIMv2に加えて、LLaVAのようなモダンなマルチモーダルデザインにも従えば、私たちの変更は簡単です。
私たちはこの新バージョンをOpenVision 2.0と名付けます。
この単純化にもかかわらず、OpenVision 2はトレーニング時間とメモリ消費を大幅に削減しながら、幅広いマルチモーダルベンチマークでオリジナルのモデルのパフォーマンスと競合する。
例えば、ViT-L/14では、トレーニング時間を約1.5倍(83hから57h)、メモリ使用量を約1.8倍(24.5GBから13.8GB)削減し、最大バッチサイズを2kから8kに拡大する。
この優れたトレーニング効率により、OpenVisionで使用されている最大のビジョンエンコーダをはるかに超え、10億以上のパラメータに到達することが可能になります。
我々は、この軽量で生成のみのパラダイムが、マルチモーダル基盤モデルにおける将来のビジョンエンコーダ開発に魅力的なものであると強く信じている。
関連論文リスト
- OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning [27.827671579139903]
OpenVisionは、LLaVAのようなマルチモーダルフレームワークに統合された場合、OpenAIのCLIPのパフォーマンスにマッチまたは上回るビジョンエンコーダのファミリーである。
5.9Mから632.1Mパラメータにまたがるビジョンエンコーダをリリースすることにより、OpenVisionは、マルチモーダルモデルを構築する際のキャパシティと効率の間の柔軟なトレードオフを提供する。
論文 参考訳(メタデータ) (2025-05-07T17:48:35Z) - NVILA: Efficient Frontier Visual Language Models [90.38936112050857]
我々は、効率と精度の両方を最適化するために設計されたオープンビジュアル言語モデル(VLM)のファミリであるNVILAを紹介する。
VILA上に構築したモデルアーキテクチャは,まず空間分解能と時間分解能をスケールアップし,次に視覚トークンを圧縮することによって改善する。
我々は、NVILAのライフサイクル全体を通して、トレーニングや微調整から展開までの効率を高めるための体系的な調査を行っている。
論文 参考訳(メタデータ) (2024-12-05T18:59:55Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。