Fugu-MT 論文翻訳(概要): GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

論文の概要: GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

arxiv url: http://arxiv.org/abs/2402.16174v1
Date: Sun, 25 Feb 2024 18:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 15:02:29.649756
Title: GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction
Title（参考訳）: GenNBV:アクティブ3D再構築のための汎用的な次世代ビューポリシー
Authors: Xiao Chen and Quanyi Li and Tai Wang and Tianfan Xue and Jiangmiao Pang
Abstract要約: 我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な制限されたアクション空間を5次元自由空間に拡張する。実験により, 建築規模が不明瞭な対象に対して, 98.26%, 97.12%のカバレッジ比を達成できた。
参考スコア（独自算出の注目度）: 21.179318097133848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent advances in neural radiance field enable realistic digitization for large-scale scenes, the image-capturing process is still time-consuming and labor-intensive. Previous works attempt to automate this process using the Next-Best-View (NBV) policy for active 3D reconstruction. However, the existing NBV policies heavily rely on hand-crafted criteria, limited action space, or per-scene optimized representations. These constraints limit their cross-dataset generalizability. To overcome them, we propose GenNBV, an end-to-end generalizable NBV policy. Our policy adopts a reinforcement learning (RL)-based framework and extends typical limited action space to 5D free space. It empowers our agent drone to scan from any viewpoint, and even interact with unseen geometries during training. To boost the cross-dataset generalizability, we also propose a novel multi-source state embedding, including geometric, semantic, and action representations. We establish a benchmark using the Isaac Gym simulator with the Houses3K and OmniObject3D datasets to evaluate this NBV policy. Experiments demonstrate that our policy achieves a 98.26% and 97.12% coverage ratio on unseen building-scale objects from these datasets, respectively, outperforming prior solutions.
Abstract（参考訳）: 近年のニューラルラディアンス分野の進歩により、大規模シーンのリアルなデジタル化が可能になったが、画像キャプチャープロセスはまだ時間がかかり、労働集約的だ。従来の作業では,Next-Best-View (NBV) ポリシを使用して,アクティブな3次元再構築を試みていた。しかし、既存のnbvポリシーは、手作りの基準、限られたアクションスペース、あるいはシーンごとの最適化表現に大きく依存している。これらの制約は、データセット間の一般化性を制限する。そこで我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な限られたアクション空間を5次元自由空間に拡張する。エージェントドローンはどんな視点からでもスキャンでき、訓練中は目に見えないジオメトリと対話することもできます。クロスデータセットの一般化性を高めるために,幾何学的,意味的,行動表現を含む新しいマルチソース状態埋め込みを提案する。このNBVポリシーを評価するために,Houses3KとOmniObject3Dデータセットを用いたIsaac Gymシミュレータを用いたベンチマークを構築した。実験の結果、これらのデータセットから、目に見えないビルディングスケールのオブジェクトに対して、ポリシーが98.26%と97.12%のカバレッジ比を達成した。

関連論文リスト

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文参考訳（メタデータ） (2025-04-15T14:30:26Z)
Boundary Exploration of Next Best View Policy in 3D Robotic Scanning [6.961253535504979]
我々は,次の視点でスキャンした点雲の境界を探索するNBVポリシーを提案する。参照モデルに基づいて次のセンサ位置を反復的に探索するモデルに基づく手法を提案する。深層学習ネットワークであるBoundary Exploration NBV Network (BENBV-Net) を設計・提案し, スキャンしたデータから直接NBVを予測する。
論文参考訳（メタデータ） (2024-12-11T16:11:13Z)
LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation [32.27869897947267]
動的3Dオブジェクトを表現するための新しいアプローチであるLEIAを紹介する。我々の手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、現在の状態にハイパーネットワークを条件付けることである。これらの状態の補間により、以前は見えなかった3次元空間に新しい調音構成を生成することができる。
論文参考訳（メタデータ） (2024-09-10T17:59:53Z)
Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文参考訳（メタデータ） (2024-03-20T12:51:30Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Neural Kernel Surface Reconstruction [80.51581494300423]
本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。我々のアプローチは、最近導入されたNeural Kernel Fields表現に基づいている。
論文参考訳（メタデータ） (2023-05-31T06:25:18Z)
Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文参考訳（メタデータ） (2023-05-30T11:34:57Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。提案手法を2つの実験グループを用いて検証した。
論文参考訳（メタデータ） (2021-01-23T01:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。