Self-Prophetic Decoding to Unlock Visual Search in LVLMs
Abstractの概要
本論文は、大規模視覚言語モデル(LVLM)における視覚探索(visual search)を研究し、現在の事後学習済み探索モデルが、視覚探索学習後の本質的な単一ステップ能力の低下と、長い複数ステップの推論コンテキストからの干渉という関連する2つの問題に苦しんでいると論じている。これに対処するため、著者らは事後学習済みの視覚探索モデルとその事前学習モデルを組み合わせた、自己予言的デコーディングフレームワークであるSeProDを提案する。事前学習モデルが単一ステップのプレフィックスを提案する「預言者」として機能する一方、探索モデルは自身の本来の出力分布を保持するように設計された確率ベースのデコーディングルールを通じてこれらのトークンを選択的に受け入れる。この手法は追加学習が不要なプラグアンドプレイ型であり、並行プレフィックス評価を使用するため、報告されたセットアップにおいては追加の推論オーバーヘッドを伴わない。
新規性
特徴的なアイデアは、外部ツールの追加やモデルの再学習を行うのではなく、推論中に事後学習済みLVLMとその事前学習モデル間での自己調整を利用することである。また、本論文は事前学習モデルの出力を生成トークンの候補として扱い、それらが両方のモデルの分布と十分に一致する場合にのみ受け入れる、確率ベースの予言的サンプリングインターフェースを提案している。
成果
4つの視覚探索ベンチマーク設定の全12スプリットにおいて、SeProDはPixel Reasoner、DeepEyes、Mini-o3を元のバージョンから改善し、特により難易度の高いVisualProbeや空間推論のサブセットで強い向上が見られた。一般のVQAベンチマークでもより優れた性能を報告しており、Mini-o3からSeProDへのMME-RealWorld(65.5から67.7)、ScienceQA(84.5から85.4)、OCRBench(83.8から85.3)、CVBench(74.4から78.4)での改善が含まれる。Mini-o3を用いたVisualProbeでは、予言プレフィックスの受容率が74.2%から80.7%となり、あわせて1.03倍から1.07倍の推論速度向上が報告されている。
論文の注目点
- SeProDは、探索モデルとその事前学習モデルを結合させることで、視覚探索の事後学習後の能力の不適合や、長い複数ステップ推論のコンテキストからの干渉に対処する。
- その中核となるメカニズムは確率ベースの予言的デコーディングであり、預言者からの候補プレフィックストークンは、預言者と探索モデルの両方の分布と一致する場合にのみ受け入れられる。
- 実験では、複数のLVLMファミリーや高解像度の視覚探索ベンチマークで一貫した性能向上が示されており、報告された実装では計算オーバーヘッドを増加させず、並列評価によるわずかな高速化も達成している。