Déjà View: Looping Transformers for Multi-View 3D Reconstruction
Abstractの概要
本論文は、多視点3D再構成モデル「DéjàView」を提案する。このモデルは、深いフィードフォワード・トランスフォーマーの代わりに単一の共有トランスフォーマー・ブロックを使用し、それを各視点のDINOv2特徴量に対して再帰的に適用する。この再帰的ブロックは連続的な時間間隔で条件付けされ、トレーニング中に改善ステップ数Kがサンプリングされるため、推論時の計算予算に応じて1つのチェックポイントを利用できる。手法としては深度、光線、カメラパラメータを予測し、著者らは再帰的ダイナミクスを不動点収束ではなく方向性のある改善の形態として分析している。屋内、屋外、オブジェクト中心、および自動運転のシーンにわたる5つのベンチマークで評価が報告されている。
新規性
主な新規性は、多数の独立してパラメータ化された層に依存して暗黙的に改善を実現するのではなく、共有ブロックをループさせることによって多視点再構成トランスフォーマーにおける反復的な改善を明示的にした点である。また、推論時に同一の学習済みモデルが計算量と精度のトレードオフを調整できるように連続時間条件付けと可変Kトレーニングを導入しており、共有された再帰的構造が、それと条件を揃えた非共有のステップ単位の手法を上回ることを示している。
成果
DTU、ETH3D、7-Scenes、ScanNet++、nuScenes全体において、DéjàViewは24視点時に1億1700万パラメータ、75.9 TFLOPs、4.9 GiBのピークメモリを使用しながら、より大規模なフィードフォワードのベースラインと同等以上の性能を達成している。効率性の要約では、最高の平均インライア比(80.3)とAUC@30(91.8)を達成し、ポーズ評価表では10個のベンチマークセルのうち9個で1位または2位の結果を示した。さらにアブレーション実験により、重み共有と提案されたゲーティング設計が各指標を単調に向上させることが示され、完全に共有された設計がパラメータ数が大幅に少ないにもかかわらず、16ステップの非共有の代替手法を上回ることが確認された。
論文の注目点
- DéjàViewは、連続的な時間間隔で条件付けられた単一の共有トランスフォーマー・ブロックを用いて、視点ごとのトークンの再帰的改善として多視点3D再構成を定式化している。
- 単一の可変Kチェックポイントが様々な推論予算に対応し、モデルは従来のフィードフォワード・トランスフォーマーよりも大幅に少ないパラメータ数で強力なベンチマーク横断的性能を達成する。
- 分析により、再帰ステップにわたる品質の単調な向上と、特徴空間における方向性のある改善が特定された。さらに、共有された再帰的ブロックは、条件を揃えた非共有設計よりも優れた性能を示す。