FuguReport

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

著者 Ankan Deria, Komal Kumar, Xilin He, Imran Razzak, Hisham Cholakkal, Fahad Shahbaz Khan, Salman Khan
所属 Mohamed bin Zayed University of Artificial Intelligence
カテゴリ Method / Vision-Language Learning / Multi-encoder modular fusion, Application / Object Detection / RefCOCO detection task, Evaluation / Model Evaluation / Accuracy improvement over baseline
ライセンス CC BY 4.0

Abstractの概要

CoME-VLは、対照学習で訓練されたSigLIP2エンコーダと自己教師あり学習のDINOv3エンコーダを統合し、意味理解と空間的グラウンディングの両方を向上させるモジュール型マルチエンコーダ視覚言語フレームワークである。本手法は、エントロピー誘導型レイヤー選択、直交正則化マルチレイヤー集約、およびRoPE強化クロスアテンションを用いて、異種視覚特徴をデコーダ専用LLMの視覚トークン数をコンパクトに保ちながら融合する。Qwen2-7B言語バックボーンを持つMolmoアーキテクチャ上に構築され、PixMoベンチマークおよびRefCOCOで評価されている。予備的分析と実験結果から、SigLIP2が意味理解を支援し、DINOv3がより強力な空間的・位置特定的手がかりを提供するという、2つのエンコーダの相補的な強みが示されている。

新規性

本論文は、VLM向けの原理的なマルチエンコーダ融合戦略を提案しており、エンコーダの各深度から情報量の多い特徴を特定するエントロピー誘導型レイヤー選択、レイヤー間の冗長性を低減する直交制約付き射影、およびLLMの視覚トークン負荷を増加させずに異種トークングリッドを整合させるRoPEベースのクロスアテンションを組み合わせている。また、一般的な視覚理解と細粒度のグラウンディング(ポインティング、カウンティング、バウンディングボックス検出)の両方を単一のデコーダ専用VLMパイプライン内で対象としている点も特徴的である。

成果

PixMoベンチマークにおいて、CoME-VLはMolmo単一エンコーダベースラインに対し、視覚理解タスクで平均4.9%、グラウンディングタスクで5.4%の改善を報告している。RefCOCOでは、valで92.57%、testAで95.36%、testBで90.51%を達成し、Clip-to-DINOおよびQwen-VLベースラインを最大+1.66%のマージンで上回っている。推論時間はMolmoの1.26秒/サンプルから1.52秒/サンプルへと緩やかに増加するが、連結ベースのCOMMアプローチ(約2.2秒/サンプル)よりも効率的である。

論文の注目点

  1. CoME-VLは、エントロピー誘導型レイヤー選択、直交正則化集約、およびRoPE強化クロスアテンションを通じてSigLIP2とDINOv3の特徴を融合し、素朴なトークン連結とそれに伴う計算オーバーヘッドを回避している。
  2. 実験により、2つのエンコーダの相補的な役割が示されている:SigLIP2はより強力な意味理解に寄与し、DINOv3はポインティングやカウンティングなどのグラウンディングおよび位置特定に敏感なタスクを改善する。
  3. 本モデルはPixMoおよびRefCOCOの両方でMolmoベースラインおよび特徴融合ベースライン(Clip-to-DINO、Qwen-VL)を上回り、アブレーション実験によりマルチスケールレイヤー集約および各融合コンポーネント(RoPEアライメント、直交正則化)が性能向上に寄与していることが確認されている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。