Let ViT Speak: Generative Language-Image Pre-training
Abstractの概要
本論文は、マルチモーダル大規模言語モデルにおけるビジョンエンコーダとして機能するよう設計された、Vision Transformer向けのミニマリストな生成的言語-画像事前学習フレームワーク「GenLIP」を提案する。GenLIPは、連結された画像パッチとテキストトークンに対して単一のTransformerを使用し、prefix-LM attentionとマルチモーダル回転位置エンコーディングを採用し、標準的な自己回帰言語モデリング目的関数でテキストトークンを直接予測するよう学習する。視覚表現を劣化させるattention sink現象に対処するため、著者らはgated attentionを追加し、2段階で事前学習を行う:Recap-DataComp-1Bから固定224解像度で80億サンプル、続いて3700万の高解像度・ネイティブアスペクト比キャプションサンプルである。本研究では、直接キャプション生成、パッチ意味読み出し、凍結および標準LLaVA-NeXTベースのマルチモーダルベンチマーク、スケーリング挙動、アブレーション、識別的転移タスクを評価している。
新規性
独自のアイデアは、対照学習の2タワー構成や補助テキストデコーダを用いずに、単一のTransformerと単一の自己回帰目的関数を使用して、視覚トークンから言語トークンを直接予測させることでViTベースのビジョンエンコーダを事前学習する点にある。また、視覚-テキスト混合モデリングにおいて視覚表現の空間的多様性を劣化させるattention sink効果を緩和するためのgated attentionも導入している。
成果
凍結特徴量によるマルチモーダル評価において、GenLIPはより大規模なコーパス(最大400億ペア)で学習された強力なベースラインを一貫して上回るか同等の性能を示し、特にドキュメント・OCRベンチマークで大きな改善を達成した。Qwen2.5-1.5Bでは、GenLIPはL/16、So/16、g/16でALL AVGスコア61.5、62.6、65.2を達成し、SigLIP2の58.7、60.6、61.5を上回った。Qwen2.5-7Bでは、GenLIPは69.0、71.8、73.6を達成し、SigLIP2のSo/16で69.4、g/16で68.9と比較して優れた結果を示した。Gated attentionは収束性、データ効率、識別的転移を改善した(So/16でgated attentionなし76.2 vs あり84.3のImageNet top-1精度)。
論文の注目点
- GenLIPは、多要素のビジョン-言語事前学習設計を、連結された視覚トークンとテキストトークンに対する単一のTransformerと単一の自己回帰言語モデリング目的関数に置き換え、対照損失や独立したテキストデコーダの必要性を排除している。
- Gated attention機構が導入され、最初のトークンが不釣り合いなattention質量を吸収するattention sink現象を軽減する。著者らは、この現象が混合モダリティ設定において学習の不安定性と識別的視覚特徴の劣化を引き起こすことを示している。
- 実験的に、GenLIPは優れたデータ効率を示し、80億の事前学習サンプルのみで400億ペアで学習されたSigLIP2やその他のベースラインを上回り、特にDoc&OCRベンチマークで大幅な改善を達成した(例:Qwen2.5-1.5BのG/16スケールでSigLIP2に対して平均+5.9ポイント)。