論文の概要: GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2402.16174v2
- Date: Sat, 15 Jun 2024 13:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:46:37.732690
- Title: GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction
- Title(参考訳): GenNBV:アクティブ3D再構築のための汎用的な次世代ビューポリシー
- Authors: Xiao Chen, Quanyi Li, Tai Wang, Tianfan Xue, Jiangmiao Pang,
- Abstract要約: 我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。
我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な制限されたアクション空間を5次元自由空間に拡張する。
実験により, 建築規模が不明瞭な対象に対して, 98.26%, 97.12%のカバレッジ比を達成できた。
- 参考スコア(独自算出の注目度): 19.741248047707064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in neural radiance field enable realistic digitization for large-scale scenes, the image-capturing process is still time-consuming and labor-intensive. Previous works attempt to automate this process using the Next-Best-View (NBV) policy for active 3D reconstruction. However, the existing NBV policies heavily rely on hand-crafted criteria, limited action space, or per-scene optimized representations. These constraints limit their cross-dataset generalizability. To overcome them, we propose GenNBV, an end-to-end generalizable NBV policy. Our policy adopts a reinforcement learning (RL)-based framework and extends typical limited action space to 5D free space. It empowers our agent drone to scan from any viewpoint, and even interact with unseen geometries during training. To boost the cross-dataset generalizability, we also propose a novel multi-source state embedding, including geometric, semantic, and action representations. We establish a benchmark using the Isaac Gym simulator with the Houses3K and OmniObject3D datasets to evaluate this NBV policy. Experiments demonstrate that our policy achieves a 98.26% and 97.12% coverage ratio on unseen building-scale objects from these datasets, respectively, outperforming prior solutions.
- Abstract(参考訳): 近年のニューラルラディアンス分野の進歩により、大規模シーンのリアルなデジタル化が可能になったが、画像キャプチャープロセスはまだ時間がかかり、労働集約的だ。
従来の作業では,Next-Best-View (NBV) ポリシを使用して,アクティブな3次元再構築を試みていた。
しかし、既存のNBVポリシーは手作りの基準、限られたアクション空間、シーンごとの最適化された表現に大きく依存している。
これらの制約は、データセット間の一般化性を制限する。
そこで我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。
我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な制限されたアクション空間を5次元自由空間に拡張する。
それは、エージェントドローンがあらゆる視点からスキャンし、訓練中に見えない地形と対話することを可能にします。
また,クロスデータセットの一般化性を高めるために,幾何学的,意味的,行動表現を含む新しい多元的状態埋め込みを提案する。
我々は,このNBVポリシーを評価するために,Houses3KとOmniObject3Dデータセットを用いたIsaac Gymシミュレータを用いたベンチマークを構築した。
実験により、これらのデータセットから、目に見えないビルディングスケールのオブジェクトに対して、ポリシーが98.26%と97.12%のカバレッジ比を達成し、事前のソリューションよりも優れた結果が得られた。
関連論文リスト
- LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation [32.27869897947267]
動的3Dオブジェクトを表現するための新しいアプローチであるLEIAを紹介する。
我々の手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、現在の状態にハイパーネットワークを条件付けることである。
これらの状態の補間により、以前は見えなかった3次元空間に新しい調音構成を生成することができる。
論文 参考訳(メタデータ) (2024-09-10T17:59:53Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Neural Kernel Surface Reconstruction [80.51581494300423]
本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。
我々のアプローチは、最近導入されたNeural Kernel Fields表現に基づいている。
論文 参考訳(メタデータ) (2023-05-31T06:25:18Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。
提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。
提案手法を2つの実験グループを用いて検証した。
論文 参考訳(メタデータ) (2021-01-23T01:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。