論文の概要: Let ViT Speak: Generative Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2605.00809v1
- Date: Fri, 01 May 2026 17:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.032313
- Title: Let ViT Speak: Generative Language-Image Pre-training
- Title(参考訳): ViT Speak: 生成言語イメージの事前トレーニング
- Authors: Yan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She, Yao Zhao, Yunchao Wei,
- Abstract要約: GenLIPはビジョントランスフォーマー(ViT)のための最小限の生成事前学習フレームワークである
標準言語モデリングの目的を使用して、視覚トークンから直接言語トークンを予測するために、ViTをトレーニングする。
様々なマルチモーダルベンチマークの競合や優れた結果が得られる。
- 参考スコア(独自算出の注目度): 102.76320739909421
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present \textbf{Gen}erative \textbf{L}anguage-\textbf{I}mage \textbf{P}re-training (GenLIP), a minimalist generative pretraining framework for Vision Transformers (ViTs) designed for multimodal large language models (MLLMs). To better align vision encoders with the autoregressive nature of LLMs, GenLIP trains a ViT to predict language tokens directly from visual tokens using a standard language modeling objective, without contrastive batch construction or an additional text decoder. This design offers three key advantages: (1) \textbf{Simplicity}: a single transformer jointly models visual and textual tokens; (2) \textbf{Scalability}: it scales effectively with both data and model size; and (3) \textbf{Performance}: it achieves competitive or superior results across diverse multimodal benchmarks. Trained on 8B samples from Recap-DataComp-1B, GenLIP matches or surpasses strong baselines despite using substantially less pretraining data. After continued pretraining on multi-resolution images at native aspect ratios, GenLIP further improves on detail-sensitive tasks such as OCR and chart understanding, making it a strong foundation for vision encoders in MLLMs.
- Abstract(参考訳): 本稿では、マルチモーダル大言語モデル(MLLM)用に設計された視覚変換器(ViT)のための最小限の生成前トレーニングフレームワークである、textbf{Gen}erative \textbf{L}anguage-\textbf{I}mage \textbf{P}re-training (GenLIP)を提案する。
視覚エンコーダとLLMの自己回帰特性をよりよく整合させるため、GenLIPはViTを訓練し、対照的なバッチ構造や追加のテキストデコーダを使わずに、標準的な言語モデリング目的を用いて視覚トークンから直接言語トークンを予測する。
この設計には3つの大きな利点がある: (1) \textbf{Simplicity}: 単一のトランスフォーマーがビジュアルトークンとテキストトークンを共同でモデル化し、(2) \textbf{Scalability}: データサイズとモデルサイズの両方で効果的にスケールし、(3) \textbf{Performance}: 多様なマルチモーダルベンチマークの競合や優れた結果を達成する。
Recap-DataComp-1Bの8BサンプルでトレーニングされたGenLIPは、事前トレーニングデータが少ないにもかかわらず、強いベースラインにマッチする。
ネイティブアスペクト比でのマルチ解像度画像の事前トレーニングを継続した後、GenLIPはOCRやチャート理解といった細部に敏感なタスクをさらに改善し、MLLMにおける視覚エンコーダの強力な基盤となった。
関連論文リスト
- HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。
否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。
提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T07:21:36Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。