論文の概要: VIN-NBV: A View Introspection Network for Next-Best-View Selection
- arxiv url: http://arxiv.org/abs/2505.06219v3
- Date: Mon, 25 Aug 2025 17:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.65041
- Title: VIN-NBV: A View Introspection Network for Next-Best-View Selection
- Title(参考訳): VIN-NBV:次世代ビュー選択のためのビューイントロスペクションネットワーク
- Authors: Noah Frahm, Dongxu Zhao, Andrea Dunn Beltran, Ron Alterovitz, Jan-Michael Frahm, Junier Oliva, Roni Sengupta,
- Abstract要約: Next Best View (NBV)は、最小限のリソースを使用して3Dシーンの取得品質を最大化することを目的としている。
本稿では,潜在的次の視点の相対再構成改善(RRI)を予測する軽量ニューラルネットワークであるビューイントロスペクション・ネットワーク(VIN)を紹介する。
我々は,我々のRRI適合度基準が,同じ欲求戦略を用いて,カバーベース基準よりも30%向上することを示した。
- 参考スコア(独自算出の注目度): 13.073865899924641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next Best View (NBV) algorithms aim to maximize 3D scene acquisition quality using minimal resources, e.g. number of acquisitions, time taken, or distance traversed. Prior methods often rely on coverage maximization as a proxy for reconstruction quality, but for complex scenes with occlusions and finer details, this is not always sufficient and leads to poor reconstructions. Our key insight is to train an acquisition policy that directly optimizes for reconstruction quality rather than just coverage. To achieve this, we introduce the View Introspection Network (VIN): a lightweight neural network that predicts the Relative Reconstruction Improvement (RRI) of a potential next viewpoint without making any new acquisitions. We use this network to power a simple, yet effective, sequential samplingbased greedy NBV policy. Our approach, VIN-NBV, generalizes to unseen object categories, operates without prior scene knowledge, is adaptable to resource constraints, and can handle occlusions. We show that our RRI fitness criterion leads to a ~30% gain in reconstruction quality over a coverage-based criterion using the same greedy strategy. Furthermore, VIN-NBV also outperforms deep reinforcement learning methods, Scan-RL and GenNBV, by ~40%.
- Abstract(参考訳): Next Best View (NBV)アルゴリズムは、最小限のリソース、例えば、取得数、時間、距離トラバースによる3Dシーンの取得品質を最大化することを目的としている。
以前の手法では、しばしば修復品質のプロキシとしてカバレッジの最大化に頼っていたが、隠蔽や細部が細かな複雑なシーンでは、これは必ずしも十分ではなく、再構築の貧弱につながる。
私たちの重要な洞察は、単にカバレッジではなく、再構築品質を直接最適化する買収ポリシーをトレーニングすることです。
これを実現するために、我々はビューイントロスペクション・ネットワーク(VIN: View Introspection Network)を紹介した。これは、新たな買収を行うことなく、潜在的次の視点の相対再構成改善(RRI)を予測する軽量ニューラルネットワークである。
我々は、このネットワークを使って、単純で効果的でシーケンシャルなサンプリングベースなNBVポリシーを推進します。
我々のアプローチであるVIN-NBVは、見えないオブジェクトカテゴリを一般化し、事前のシーン知識なしで動作し、リソース制約に適応し、オクルージョンを処理できる。
我々は,我々のRRI適合度基準が,同じ欲求戦略を用いて,カバーベース基準よりも約30%向上することを示した。
さらに、VIN-NBVは深い強化学習手法であるScan-RLとGenNBVを約40%上回っている。
関連論文リスト
- IRPO: Boosting Image Restoration via Post-training GRPO [59.588079259093035]
我々は低レベルのGRPOベースのポストトレーニングパラダイムIRPOを提案する。
まず,低レベルのポストトレーニングパラダイムのデータ定式化原理について検討する。
次に、客観的精度と人間の知覚的嗜好のバランスをとる報酬レベル基準をモデル化する。
論文 参考訳(メタデータ) (2025-11-30T09:42:24Z) - RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction [10.51717081118357]
3次元再構成のためのアクティブビューセレクション(AVS)は、コンピュータビジョンの基本的な課題である。
我々は、UPNetと呼ばれる軽量フィードフォワードディープニューラルネットワークによって予測される神経不確実性マップによって導かれる新しいAVSアプローチを導入する。
我々は3Dレンダリングモデルを訓練し、他の競争力のあるAVS手法と比較して、新しいビューの品質を評価する。
論文 参考訳(メタデータ) (2025-06-17T08:15:52Z) - FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.6368083163258]
本稿では,新しいビューレンダリングを高密度再構成で期待するレンダリングに接続するフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文 参考訳(メタデータ) (2025-04-02T11:57:01Z) - Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors [18.149244316089284]
我々はPow3rを提案する。Pow3rは大きな3次元視覚の回帰モデルであり、入力モードにおいて非常に多用途である。
本研究では,3次元再構成,深度補完,多視点深度予測,多視点ステレオ,多視点ポーズ推定タスクについて検討した。
論文 参考訳(メタデータ) (2025-03-21T17:12:30Z) - MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds [56.77548728485841]
本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:34:55Z) - PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction [49.7580491592023]
PVP-Recon, 新規かつ効果的なスパースビュー表面再構成法を提案する。
PVP-Reconは3つのビューで初期表面の再構築を開始し、徐々に新しいビューを追加する。
このプログレッシブビュー計画の進捗は、神経SDFベースの再構築モジュールによってインターリーブされる。
論文 参考訳(メタデータ) (2024-09-09T10:06:34Z) - Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction [19.741248047707064]
我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。
我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な制限されたアクション空間を5次元自由空間に拡張する。
実験により, 建築規模が不明瞭な対象に対して, 98.26%, 97.12%のカバレッジ比を達成できた。
論文 参考訳(メタデータ) (2024-02-25T18:59:29Z) - Bag of Views: An Appearance-based Approach to Next-Best-View Planning
for 3D Reconstruction [3.637651065605852]
Bag-of-Views (BoV) は、キャプチャされたビューにユーティリティを割り当てるのに使用される、完全な外観ベースのモデルである。
View Planning Toolbox(VPT)は、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージである。
論文 参考訳(メタデータ) (2023-07-11T22:56:55Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Uncertainty-Driven Active Vision for Implicit Scene Reconstruction [31.890470553111122]
暗黙的なシーン再構成のための不確実性駆動型能動視覚アプローチを提案する。
本研究では,2次元または3次元の監督を用いて,シーンを正確に表現する占領型再構築手法を開発した。
論文 参考訳(メタデータ) (2022-10-03T14:45:54Z) - Information Prebuilt Recurrent Reconstruction Network for Video
Super-Resolution [8.587681982540225]
一方向のリカレント畳み込みネットワークにおいて、異なるリカレントユニットから受信された入力情報がアンバランスされる。
初期の再構築フレームは時間的な情報が少なくなり、ファジィやアーティファクトの結果をもたらす。
本稿では,情報プリビルドネットワーク(IPNet)とリカレントリカレント・リカレント・リカレント・ネットワーク(RRNet)からなる,エンド・ツー・エンドのインフォメーション・リカレント・リカレント・リカレント・リカレント・リカレント・ネットワーク(IPRRN)を提案する。
論文 参考訳(メタデータ) (2021-12-10T05:32:23Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - iSeeBetter: Spatio-temporal video super-resolution using recurrent
generative back-projection networks [0.0]
ビデオ超解像(VSR)に対する新しいGANに基づく構造時間的アプローチiSeeBetterを提案する。
iSeeBetterは、リカレントバックプロジェクションネットワークをジェネレータとして使用して、現在のフレームと隣接するフレームから時空間情報を抽出する。
以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。
論文 参考訳(メタデータ) (2020-06-13T01:36:30Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。