Fugu-MT 論文翻訳(概要): Next-Best View Policy for 3D Reconstruction

論文の概要: Next-Best View Policy for 3D Reconstruction

arxiv url: http://arxiv.org/abs/2008.12664v2
Date: Sun, 6 Sep 2020 15:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 02:13:37.794248
Title: Next-Best View Policy for 3D Reconstruction
Title（参考訳）: 次世代の3次元再構築政策
Authors: Daryl Peralta, Joel Casimiro, Aldrin Michael Nilles, Justine Aletta Aguilar, Rowel Atienza and Rhandley Cajote
Abstract要約: 我々は,Next-Best View(NBV)ポリシーを学習するためのScan-RLという学習アルゴリズムを提案する。実験では、Scan-RLを用いて、基準の円形経路と比較して、歩数が少なく、距離も短い家屋をスキャンできることがわかった。
参考スコア（独自算出の注目度）: 13.244237238270893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Manually selecting viewpoints or using commonly available flight planners like circular path for large-scale 3D reconstruction using drones often results in incomplete 3D models. Recent works have relied on hand-engineered heuristics such as information gain to select the Next-Best Views. In this work, we present a learning-based algorithm called Scan-RL to learn a Next-Best View (NBV) Policy. To train and evaluate the agent, we created Houses3K, a dataset of 3D house models. Our experiments show that using Scan-RL, the agent can scan houses with fewer number of steps and a shorter distance compared to our baseline circular path. Experimental results also demonstrate that a single NBV policy can be used to scan multiple houses including those that were not seen during training. The link to Scan-RL is available at https://github.com/darylperalta/ScanRL and Houses3K dataset can be found at https://github.com/darylperalta/Houses3K.
Abstract（参考訳）: 手動で視点を選択したり、ドローンを使った大規模な3d再構築のために円形経路のような一般的な飛行プランナーを使うと、しばしば不完全な3dモデルになる。最近の研究は、次のベストビューを選択するための情報ゲインのような手作業によるヒューリスティックに頼っている。本研究では,Next-Best View(NBV)ポリシーを学習するためのScan-RLという学習アルゴリズムを提案する。エージェントをトレーニングし、評価するために、3DハウスモデルのデータセットであるHouses3Kを作成しました。実験の結果,Scan-RLを使用すれば,基準円路よりも少ない段数と短い距離で家屋をスキャンできることがわかった。実験結果は、訓練中に見られなかったものを含む複数の家屋を単一のnbvポリシーでスキャンできることも示している。 Scan-RLへのリンクはhttps://github.com/darylperalta/ScanRLで、Houses3Kデータセットはhttps://github.com/darylperalta/Houses3Kで見ることができる。

関連論文リスト

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文参考訳（メタデータ） (2025-05-09T05:32:40Z)
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルであるセンサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文参考訳（メタデータ） (2025-04-19T02:51:24Z)
Boundary Exploration of Next Best View Policy in 3D Robotic Scanning [6.961253535504979]
我々は,次の視点でスキャンした点雲の境界を探索するNBVポリシーを提案する。参照モデルに基づいて次のセンサ位置を反復的に探索するモデルに基づく手法を提案する。深層学習ネットワークであるBoundary Exploration NBV Network (BENBV-Net) を設計・提案し, スキャンしたデータから直接NBVを予測する。
論文参考訳（メタデータ） (2024-12-11T16:11:13Z)
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。 VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-17T17:59:55Z)
Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文参考訳（メタデータ） (2024-06-14T15:21:57Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans [20.030706182672144]
そこで本研究では,現実のシーンの大規模な3次元スキャンを,容易に解釈可能な形状で解析するための教師なし手法を提案する。提案手法は,入力された3次元点群を学習された3次元形状の小さな集合に分解する確率的再構成モデルに基づく。実世界の様々なシナリオから得られた7つの大型LiDARスキャンのデータセット上で,本モデルの有用性を実証する。
論文参考訳（メタデータ） (2023-04-19T14:49:31Z)
SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。マルチカメラ画像を用いたSurroundOcc法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:59:08Z)
3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-05T11:45:26Z)
Towards 3D VR-Sketch to 3D Shape Retrieval [128.47604316459905]
入力モダリティとしての3Dスケッチの利用について検討し、検索を行うVRシナリオを提唱する。この新しい3DVR-Sketchから3D形状の検索問題に対する最初のスタンプとして、私たちは4つのコントリビューションを行います。
論文参考訳（メタデータ） (2022-09-20T22:04:31Z)
From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。 3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文参考訳（メタデータ） (2021-07-30T02:00:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。