Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering
Abstractの概要
本論文は、大規模マルチモーダルモデル(LMM)における複数領域の視覚的参照問題に取り組んでいる。複数のマーク付き領域を同時に解釈し、時にはグローバルなシーン文脈を必要とする課題である。著者らは、対照的な例からコンテキスト操縦ベクトルを事前計算し、ファインチューニングやアーキテクチャ変更なしに推論時に表現編集を適用する、学習不要の手法「Contextual Latent Steering(CSteer)」を提案している。これらのベクトルは、複数のマーク付き領域の区別やより広い文脈的手がかりの組み込みなど、参照に有用な振る舞いを符号化する。実験はGAR-Bench、INST-IT、VIP-Bench、BLINKベンチマークで評価され、ベクトル構築、レイヤー選択、操縦の分解、データスケールに関するアブレーションが行われている。
新規性
主要な貢献は、領域エンコーダの追加、ファインチューニング、アーキテクチャ変更なしに、汎用LMMにおける複数領域の視覚的参照を改善する学習不要の手法である。このアプローチは、モデルの誤ったロールアウトとLLMジャッジによる修正済み参照書き換えのペアから操縦ベクトルを構築し、初期レイヤーではクエリトークンに、中間〜後期レイヤーではデコーディング時にマーカートークンに分解された操縦を適用する。
成果
CSteerは、複数のベンチマークにおいてSet-of-Markプロンプティングに対して強力な汎用LMMベースラインを一貫して改善する。Qwen3-VL-8Bでは、INST-IT画像オープンエンド性能を78.5から80.4に、動画多肢選択を58.2から60.1に向上させ、GAR-Bench OEを52.5から57.4に、VIP-Bench平均を71.5から74.7に、BLINKを55.9から57.5に改善した。アブレーションにより、書き換えベースのベクトル構築と分解された操縦が最も効果的な設計選択であることが確認された。
論文の注目点
- CSteerは汎用LMMの特定の弱点、すなわち複数のマーク付き領域を同時に参照する能力(特に正解が孤立した物体認識ではなく文脈的なシーン理解に依存する場合)を対象としている。
- 本手法は対照的な隠れ状態の差分からコンテキスト操縦ベクトルを導出し、最も強力なバリアントは誤ったロールアウトとLLMによる修正済み書き換えのペアを使用して参照的修正を捉える。
- アブレーションにより、初期レイヤーのクエリ内操縦と中間〜後期レイヤーのデコーディング操縦が相補的な役割を果たし、データスケール(32〜1024サンプル)、入力ドメイン(画像と動画)、プロンプティング形式(ポイント、ボックス、数値識別子)にわたって改善が一貫していることが示された。