論文の概要: VIN-NBV: A View Introspection Network for Next-Best-View Selection
- arxiv url: http://arxiv.org/abs/2505.06219v3
- Date: Mon, 25 Aug 2025 17:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.65041
- Title: VIN-NBV: A View Introspection Network for Next-Best-View Selection
- Title(参考訳): VIN-NBV:次世代ビュー選択のためのビューイントロスペクションネットワーク
- Authors: Noah Frahm, Dongxu Zhao, Andrea Dunn Beltran, Ron Alterovitz, Jan-Michael Frahm, Junier Oliva, Roni Sengupta,
- Abstract要約: Next Best View (NBV)は、最小限のリソースを使用して3Dシーンの取得品質を最大化することを目的としている。
本稿では,潜在的次の視点の相対再構成改善(RRI)を予測する軽量ニューラルネットワークであるビューイントロスペクション・ネットワーク(VIN)を紹介する。
我々は,我々のRRI適合度基準が,同じ欲求戦略を用いて,カバーベース基準よりも30%向上することを示した。
- 参考スコア(独自算出の注目度): 13.073865899924641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next Best View (NBV) algorithms aim to maximize 3D scene acquisition quality using minimal resources, e.g. number of acquisitions, time taken, or distance traversed. Prior methods often rely on coverage maximization as a proxy for reconstruction quality, but for complex scenes with occlusions and finer details, this is not always sufficient and leads to poor reconstructions. Our key insight is to train an acquisition policy that directly optimizes for reconstruction quality rather than just coverage. To achieve this, we introduce the View Introspection Network (VIN): a lightweight neural network that predicts the Relative Reconstruction Improvement (RRI) of a potential next viewpoint without making any new acquisitions. We use this network to power a simple, yet effective, sequential samplingbased greedy NBV policy. Our approach, VIN-NBV, generalizes to unseen object categories, operates without prior scene knowledge, is adaptable to resource constraints, and can handle occlusions. We show that our RRI fitness criterion leads to a ~30% gain in reconstruction quality over a coverage-based criterion using the same greedy strategy. Furthermore, VIN-NBV also outperforms deep reinforcement learning methods, Scan-RL and GenNBV, by ~40%.
- Abstract(参考訳): Next Best View (NBV)アルゴリズムは、最小限のリソース、例えば、取得数、時間、距離トラバースによる3Dシーンの取得品質を最大化することを目的としている。
以前の手法では、しばしば修復品質のプロキシとしてカバレッジの最大化に頼っていたが、隠蔽や細部が細かな複雑なシーンでは、これは必ずしも十分ではなく、再構築の貧弱につながる。
私たちの重要な洞察は、単にカバレッジではなく、再構築品質を直接最適化する買収ポリシーをトレーニングすることです。
これを実現するために、我々はビューイントロスペクション・ネットワーク(VIN: View Introspection Network)を紹介した。これは、新たな買収を行うことなく、潜在的次の視点の相対再構成改善(RRI)を予測する軽量ニューラルネットワークである。
我々は、このネットワークを使って、単純で効果的でシーケンシャルなサンプリングベースなNBVポリシーを推進します。
我々のアプローチであるVIN-NBVは、見えないオブジェクトカテゴリを一般化し、事前のシーン知識なしで動作し、リソース制約に適応し、オクルージョンを処理できる。
我々は,我々のRRI適合度基準が,同じ欲求戦略を用いて,カバーベース基準よりも約30%向上することを示した。
さらに、VIN-NBVは深い強化学習手法であるScan-RLとGenNBVを約40%上回っている。
関連論文リスト
- RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.6368083163258]
本稿では,新しいビューレンダリングを高密度再構成で期待するレンダリングに接続するフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文 参考訳(メタデータ) (2025-04-02T11:57:01Z) - Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors [18.149244316089284]
我々はPow3rを提案する。Pow3rは大きな3次元視覚の回帰モデルであり、入力モードにおいて非常に多用途である。
本研究では,3次元再構成,深度補完,多視点深度予測,多視点ステレオ,多視点ポーズ推定タスクについて検討した。
論文 参考訳(メタデータ) (2025-03-21T17:12:30Z) - MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds [56.77548728485841]
本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:34:55Z) - PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction [49.7580491592023]
PVP-Recon, 新規かつ効果的なスパースビュー表面再構成法を提案する。
PVP-Reconは3つのビューで初期表面の再構築を開始し、徐々に新しいビューを追加する。
このプログレッシブビュー計画の進捗は、神経SDFベースの再構築モジュールによってインターリーブされる。
論文 参考訳(メタデータ) (2024-09-09T10:06:34Z) - Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Bag of Views: An Appearance-based Approach to Next-Best-View Planning
for 3D Reconstruction [3.637651065605852]
Bag-of-Views (BoV) は、キャプチャされたビューにユーティリティを割り当てるのに使用される、完全な外観ベースのモデルである。
View Planning Toolbox(VPT)は、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージである。
論文 参考訳(メタデータ) (2023-07-11T22:56:55Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Uncertainty-Driven Active Vision for Implicit Scene Reconstruction [31.890470553111122]
暗黙的なシーン再構成のための不確実性駆動型能動視覚アプローチを提案する。
本研究では,2次元または3次元の監督を用いて,シーンを正確に表現する占領型再構築手法を開発した。
論文 参考訳(メタデータ) (2022-10-03T14:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。