論文の概要: VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2505.06219v2
- Date: Fri, 16 May 2025 14:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.861464
- Title: VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction
- Title(参考訳): VIN-NBV:資源効率の良い3次元再構成のための次世代視点選択のためのビューイントロスペクションネットワーク
- Authors: Noah Frahm, Dongxu Zhao, Andrea Dunn Beltran, Ron Alterovitz, Jan-Michael Frahm, Junier Oliva, Roni Sengupta,
- Abstract要約: Next Best View (NBV)アルゴリズムは、最小限のリソース、時間、キャプチャ数を使って最適な画像のセットを取得することを目的としている。
本稿では,ビューの再現性向上を直接予測するビューイントロスペクション・ネットワーク(VIN)を提案する。
VIN-NBVは,制約条件で操作した場合,カバレッジベースライン上で30%の動作で復元品質が向上することを示す。
- 参考スコア(独自算出の注目度): 17.218766735567975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next Best View (NBV) algorithms aim to acquire an optimal set of images using minimal resources, time, or number of captures to enable efficient 3D reconstruction of a scene. Existing approaches often rely on prior scene knowledge or additional image captures and often develop policies that maximize coverage. Yet, for many real scenes with complex geometry and self-occlusions, coverage maximization does not lead to better reconstruction quality directly. In this paper, we propose the View Introspection Network (VIN), which is trained to predict the reconstruction quality improvement of views directly, and the VIN-NBV policy. A greedy sequential sampling-based policy, where at each acquisition step, we sample multiple query views and choose the one with the highest VIN predicted improvement score. We design the VIN to perform 3D-aware featurization of the reconstruction built from prior acquisitions, and for each query view create a feature that can be decoded into an improvement score. We then train the VIN using imitation learning to predict the reconstruction improvement score. We show that VIN-NBV improves reconstruction quality by ~30% over a coverage maximization baseline when operating with constraints on the number of acquisitions or the time in motion.
- Abstract(参考訳): Next Best View (NBV)アルゴリズムは、シーンの効率的な3D再構成を可能にするため、最小限のリソース、時間、キャプチャ数を用いて最適な画像のセットを取得することを目的としている。
既存のアプローチは、しばしば以前のシーン知識や追加の画像キャプチャに依存し、カバレッジを最大化するポリシーを開発する。
しかし、複雑な幾何学と自己閉塞を持つ多くの現実のシーンでは、カバレッジの最大化は、直接的に再構築品質を向上させるには至らない。
本稿では,ビューの再現性向上を直接予測するビューイントロスペクションネットワーク(VIN)と,VIN-NBVポリシーを提案する。
各取得ステップで複数のクエリビューをサンプリングし、最も高いVIN予測改善スコアを持つものを選択する。
我々は,VINを設計して,事前の取得から構築した再構築を3D対応で実現し,クエリビュー毎に改善スコアにデコード可能な機能を作成する。
次に、模擬学習を用いてVINを訓練し、再建改善スコアを予測する。
VIN-NBVは,取得数や動作時間に制約のある操作を行う場合,カバレッジ最大化ベースラインよりも約30%向上することを示す。
関連論文リスト
- FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.6368083163258]
本稿では,新しいビューレンダリングを高密度再構成で期待するレンダリングに接続するフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文 参考訳(メタデータ) (2025-04-02T11:57:01Z) - Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors [18.149244316089284]
我々はPow3rを提案する。Pow3rは大きな3次元視覚の回帰モデルであり、入力モードにおいて非常に多用途である。
本研究では,3次元再構成,深度補完,多視点深度予測,多視点ステレオ,多視点ポーズ推定タスクについて検討した。
論文 参考訳(メタデータ) (2025-03-21T17:12:30Z) - MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds [56.77548728485841]
本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:34:55Z) - PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction [49.7580491592023]
PVP-Recon, 新規かつ効果的なスパースビュー表面再構成法を提案する。
PVP-Reconは3つのビューで初期表面の再構築を開始し、徐々に新しいビューを追加する。
このプログレッシブビュー計画の進捗は、神経SDFベースの再構築モジュールによってインターリーブされる。
論文 参考訳(メタデータ) (2024-09-09T10:06:34Z) - Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Bag of Views: An Appearance-based Approach to Next-Best-View Planning
for 3D Reconstruction [3.637651065605852]
Bag-of-Views (BoV) は、キャプチャされたビューにユーティリティを割り当てるのに使用される、完全な外観ベースのモデルである。
View Planning Toolbox(VPT)は、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージである。
論文 参考訳(メタデータ) (2023-07-11T22:56:55Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。