FuguReport

Planning with the Views via Scene Self-Exploration

著者 Kangrui Wang, Linjie Li, Zhengyuan Yang, Shiqi Chen, Zihan Wang, Li Fei-Fei, Jiajun Wu, Leonidas Guibas, Lijuan Wang, Manling Li
所属 Stanford University / Northwestern University / Microsoft / University of Washington / University of Oxford
カテゴリ Method / View Planning / Planning with functional view transformations, Application / 3D Scene Understanding / ScanNet point cloud environment, Evaluation / Robotic Exploration / Scene self-exploration in 3D
ライセンス CC BY 4.0

Abstractの概要

本論文は、視点変更アクションが観察中のシーンをどう変化させるかを予測し、複数ステップにわたってそれらの変化を構成して目標視点へ到達または位置を特定する能力である「ビュープランニング」を調査している。この能力を評価するために、著者らは6自由度(6-DoF)の視点制御を備えた実際のScanNetシーンに構築されたベンチマーク「ViewSuite」を導入し、Path-to-View、View-to-Path、Interactive View Planningという3つのタスクを設けた。13の最先端ビジョン言語モデルにおける実験では、局所的な視点・アクションの理解とマルチターンプランニングの間に明確なギャップがあることが示され、単一ターンのタスクでは妥当な性能を示すものの、インタラクティブプランニングでは視点間距離が広がるにつれて著しく性能が低下することがわかった。これに対処するため、本論文では、3Dシーンでの自己探索とビューグラフ蒸留を交互に行い、探索された軌跡を教師あり学習のシグナルに変換する反復的学習フレームワークを提案している。

新規性

本研究は、問題設定と手法の両面で新規性があると考えられる。完全な6自由度の制御を伴う実際の3DシーンにおけるマルチターンビュープランニングのベンチマークとしてViewSuiteを導入するとともに、失敗した探索軌跡であっても接続された視点のグラフとして構成することで再利用可能な教師信号へと変換するビューグラフ蒸留を提案している。

成果

13の最先端VLMにおける検証から、Path-to-ViewやView-to-Pathでの高い単一ターン性能がそのままInteractive View Planningの高い性能(最良モデルでも21.4%)に直結しないことが明らかになった。提案する反復的な自己探索およびビューグラフ蒸留フレームワークにより、Qwen2.5-VL-7B-InstructのInteractive View Planningにおける性能は2.5%から47.8%へと向上し、報告されているGPT-5.4 Pro(18.5%)やGemini 3.1 Pro(21.4%)のスコアを上回った。また、この学習済みモデルは転移可能な空間的事前知識の証拠も示しており、関連するViewSuiteタスクや外部ベンチマークであるMindCubeにおいて同一の事後学習を行ったベースモデルの性能を上回っている。

論文の注目点

  1. ViewSuiteは、単一ステップの視点遷移の理解とマルチターンプランニングを分離する3つの相補的なタスクを通じて、ScanNetベースの実際の3Dシーンにおけるビュープランニングを評価するベンチマークである。
  2. 最先端のVLMにはプランニング能力のギャップがあり、Interactive View Planningよりも単一ターンの視点推論において遥かに優れた結果を示す一方で、視点距離が長くなるにつれて性能が悪化することがわかった。
  3. 提案された反復的学習フレームワークは、自己探索とビューグラフ蒸留を用いて、失敗を含むすべての軌跡から教師信号を抽出することで、Interactive View Planningでの大幅な性能向上と関連する空間推論タスクへの転移能力の改善を実現する。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。