Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning
Abstractの概要
本論文は、マルチモーダル推論における中心的な問題は、視覚情報がどのように表現されるかだけでなく、推論中のいつ視覚的根拠が導入されるかであると主張している。著者らは、2つの主要なパラダイムの限界を分析し、推論前の視覚・テキスト変換はきめ細かい根拠を失う可能性があり、統合された視覚・言語推論は言語的な事前知識に支配されて画像のグラウンディングを弱める可能性があると指摘している。そこで、LLMが明示的な推論状態を保持し、独立した視覚知覚モジュールへのクエリをいつ行うかを判断し、いつ推論を停止するかを決定するフレームワークであるCSMRを提案している。この手法は、複数のマルチモーダル推論ベンチマークのゼロショット設定で評価され、アブレーション分析やハルシネーション分析によっても裏付けられている。
新規性
本研究の主な新規性は、マルチモーダル推論に対する認知的スケジューリングの定式化にある。ここでは、一度きりのテキスト化や密結合されたマルチモーダル融合に依存するのではなく、言語モデルが視覚的根拠を獲得するタイミングを明示的に制御する。また、統合型のマルチモーダル推論におけるアテンションが言語に支配されやすく、視覚的忠実性の制約が不十分であることに起因する失敗要因を指摘した実証分析と、本設計を組み合わせている点も特徴的である。
成果
Qwen2ベースのゼロショット設定において、CSMRは3つのベンチマークすべてで論文中の最高精度(M3CoTで45.7、ScienceQAで78.2、LLaVA-WでROUGE-L 34.3)を達成した。アブレーションにより動的クエリや柔軟な終了プロセスを除外すると性能が低下することが示され、ハルシネーション分析では、200のM3CoTサブセットにおいてDDCoTと比較してハルシネーションのないサンプルが9パーセントポイント増加したことが報告されている。
論文の注目点
- 既存のマルチモーダル推論における2つの失敗要因(静的な視覚・テキスト変換による根拠情報の消失と、言語主導の統合表現による視覚的グラウンディングの弱体化)を特定した。
- CSMRは推論と知覚を分離し、LLMベースの認知コアを用いて、推論状態に応じた視覚処理へのクエリを発行し、十分な根拠が収集された時点で推論を終了する。
- 実証結果とアブレーション分析によって、反復的な視覚クエリと早期終了が、DDCoTに相対する精度と効率性の向上、およびハルシネーションの削減に実質的に寄与していることが示された。