Steerable Visual Representations
Abstractの概要
本論文は、凍結されたViTブロックに軽量なゲート付きクロスアテンション層を挿入することで、事前学習済みビジョントランスフォーマー(ViT)の表現を自然言語によって操縦可能(steerable)にする手法「SteerViT」を提案している。テキストが早期融合(early fusion)を通じて中間的な視覚特徴に影響を与えることを可能にする。モデルはグラウンディングおよびセグメンテーションデータセットの混合(16.2万枚の画像、228万の画像テキストペア)を用いた参照セグメンテーション目的関数で学習され、追加の学習可能パラメータは約2100万に過ぎない。著者らは、表現の操縦可能性を測定するためのベンチマークとして、CORE(条件付き検索)およびMOSAIC(アテンションによる局在化)を提案している。実験により、SteerViTは高い操縦可能性を達成しつつベースViTの分類・セグメンテーション性能を維持し、パーソナライズされた物体識別や産業用異常セグメンテーションなどのタスクにゼロショットで汎化することが示されている。
新規性
主な新規性は、凍結されたViT層にゼロ初期化されたゲート付きクロスアテンション(早期融合)を軽量に注入することで、言語によって操縦可能なビジョン中心のマルチモーダル表現を実現する点にあり、これは視覚に基づいて言語を条件付ける典型的なMLLMのパラダイムを逆転させるものである。また、表現の操縦可能性を測定するために特別に設計されたベンチマーク(CORE、MOSAIC)を導入し、テキストの具体性が得られる特徴の意味的粒度を制御することを実証している。
成果
CORE条件付き検索ベンチマークにおいて、SteerViTはTop-1精度96.0%を達成し、DINOv2の43.7%やFLAIRの81.3%を大幅に上回りつつ、ベースViTの下流分類・セグメンテーション性能を維持または若干改善している。パーソナライズされた物体識別(PODS)では、詳細なテキスト条件付けによりSteerViTがPR-AUC 58.1%に達し、タスク固有の学習なしにファインチューニング済みDINOv2変種(48.0%)を上回る。ゼロショット異常セグメンテーション(MVTec AD)では、SteerViTがPRO 82.1を達成し、最良の専用手法(FADE、84.5)に迫り、他の複数の専門ベースラインを上回っている。
論文の注目点
- SteerViTは凍結されたViTブロックに軽量なゲート付きクロスアテンション層(約2100万パラメータ)を挿入し、テキストの視覚エンコーディングへの早期融合を実現する。これによりCOREにおける条件付き検索精度96.0%を達成し、素のDINOv2の43.7%を大幅に上回るとともに、DINOv2・SigLIP・MAEの各バックボーンにおいて一貫して後期融合を凌駕している。
- tanhゲートスケーリング機構により、推論時に未変更のViT表現と完全にテキスト条件付けされた表現との間の連続的な補間が可能となり、最適動作点(ω=0.6)においてベースViTの分類・セグメンテーション性能を維持または若干改善しつつ、高い操縦可能性を実現している。
- テキストプロンプトの具体性が操縦された特徴の意味的粒度を直接制御し、タスク固有の学習なしにパーソナライズされた物体識別(PODSでPR-AUC 58.1%、ファインチューニング済みDINOv2の48.0%を上回る)や産業用異常セグメンテーション(MVTec ADでPRO 82.1)へのゼロショット転移を可能にしている。
参考リンク
- arXiv: https://arxiv.org/abs/2604.02327v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.02327v1
- Hugging Face Papers: https://huggingface.co/papers/2604.02327