Perceptual Flow Network for Visually Grounded Reasoning
Abstractの概要
本論文は、大規模視覚言語モデル(LVLM)における視覚的根拠に基づく推論のためのフレームワークであるPFlowNet(Perceptual Flow Network)を提案する。PFlowNetは、構造化された「知覚フロー」潜在軌跡を介して知覚と推論を分離する。著者らは、視覚エキスパート(例:GroundingDINO)からの幾何学的事前分布が推論の有用性よりも位置特定精度に偏っており、最適な証拠領域はインスタンス固有であることを観察している。PFlowNetは、自己パラメータ化された変分分布を用いて理想的な知覚行動の事後分布を近似し、教師あり冷始動訓練と、多次元報酬および近傍幾何学的整形を統合した変分強化学習ファインチューニングを組み合わせる。理論的分析により、PFlowNetのTV距離上界が適切なキャリブレーション下で標準的なMLEおよびエキスパート誘導RLVRの両方を厳密に改善することが示され、汎用および細粒度の視覚推論ベンチマークにおいて競争力のある実証結果が示されている。
新規性
主な新規性は、視覚的根拠に基づく推論を、知覚と推論を分離する構造化された知覚フローとして再定式化し、最終回答に自己条件付き生成を使用する点にある。訓練スキームは、Sub-Trajectory Balance変分目的関数、視覚的信頼性(対照的キャプション品質)と推論有用性(目標回答に対する情報利得)をバランスさせる多次元報酬、およびエキスパート事前分布の厳密な模倣ではなくε近傍外の軌跡にペナルティを課すソフトな近傍幾何学的制約を組み合わせている点で独自性がある。
成果
Qwen3-VL-8B上に構築されたPFlowNetは、V* Bench(90.6%)およびMME-RealWorld-Lite(67.0%)で最高スコアを報告し、ベースモデルに対してTreeBenchで+10.4ポイント、MME-RealWorld-Liteで+18.4ポイントの向上を達成した。TreeBenchおよびMME-RealWorld-Liteの19サブタスク中17で、従来の根拠付きRLVRおよびエージェント的手法を上回っている。理論的結果として、キャリブレーションされたハイパーパラメータ下でPFlowNetのTV距離上界がMLE限界(1−s_V)およびエキスパート誘導RLVR限界(1−q)の両方を厳密に改善することが確立されている。
論文の注目点
- PFlowNetは知覚フロー生成(計画状態+根拠付き観察チェーン)を回答推論から分離し、サンプリングされたフローと対応するズームイン視覚特徴を用いて後続の自己条件付き生成を条件付ける。
- その変分強化学習ファインチューニングは、Sub-Trajectory Balance目的関数と多次元報酬(対照的キャプション品質+推論有効性)および近傍幾何学的整形(エキスパート事前分布のε近傍外の軌跡にペナルティを課すが厳密な整合は強制しない)を組み合わせている。
- 本手法はICML 2026に採択されており、V* BenchおよびMME-RealWorld-Liteでの最高スコアを含む強力なベンチマーク性能を示し、適切なハイパーパラメータキャリブレーション下で標準的なMLEおよびエキスパート誘導RLVRに対する厳密な改善を示す理論的保証によって裏付けられている。
参考リンク
- arXiv: https://arxiv.org/abs/2605.02730v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.02730v1
- Hugging Face Papers: https://huggingface.co/papers/2605.02730