論文の概要: Monte Carlo Scene Search for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2103.07969v1
- Date: Sun, 14 Mar 2021 16:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:32:40.306720
- Title: Monte Carlo Scene Search for 3D Scene Understanding
- Title(参考訳): 3次元シーン理解のためのモンテカルロシーン検索
- Authors: Shreyas Hampali, Sinisa Stekovic, Sayan Deb Sarkar, Chetan Srinivasa
Kumar, Friedrich Fraundorfer, Vincent Lepetit
- Abstract要約: 雑音の多いRGB-Dスキャンからオブジェクトや部屋のレイアウトを検索するために,モンテカルロ木探索法(MCTS)の修正を提案する。
MCTSはゲームプレイングアルゴリズムとして開発されたが、複雑な知覚問題にも使用できることを示す。
- 参考スコア(独自算出の注目度): 32.44637386239888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore how a general AI algorithm can be used for 3D scene understanding
in order to reduce the need for training data. More exactly, we propose a
modification of the Monte Carlo Tree Search (MCTS) algorithm to retrieve
objects and room layouts from noisy RGB-D scans. While MCTS was developed as a
game-playing algorithm, we show it can also be used for complex perception
problems. It has few easy-to-tune hyperparameters and can optimise general
losses. We use it to optimise the posterior probability of objects and room
layout hypotheses given the RGB-D data. This results in an
analysis-by-synthesis approach that explores the solution space by rendering
the current solution and comparing it to the RGB-D observations. To perform
this exploration even more efficiently, we propose simple changes to the
standard MCTS' tree construction and exploration policy. We demonstrate our
approach on the ScanNet dataset. Our method often retrieves configurations that
are better than some manual annotations especially on layouts.
- Abstract(参考訳): トレーニングデータの必要性を低減するために、一般的なAIアルゴリズムを3Dシーン理解にどのように使用できるかを検討します。
より正確には、ノイズの多いRGB-Dスキャンからオブジェクトと部屋レイアウトを検索するためのモンテカルロ木探索(MCTS)アルゴリズムの修正を提案する。
MCTSはゲームプレイングアルゴリズムとして開発されたが、複雑な知覚問題にも使用できることを示す。
簡単に調整できるハイパーパラメータは少なく、一般的な損失を最適化できる。
rgb-dデータに基づいて,物体の後方確率と室内配置仮説を最適化する。
これにより、現在の解をレンダリングしてRGB-D観測と比較することにより、解空間を探索する分析バイシンセシスアプローチがもたらされる。
この探索をより効率的に行うために,標準MCTSのツリー構築・探索方針の簡易な変更を提案する。
ScanNetデータセットに対する我々のアプローチを実証する。
我々のメソッドは、特にレイアウト上の手動アノテーションよりも優れた設定を検索することが多い。
関連論文リスト
- Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans [20.030706182672144]
そこで本研究では,現実のシーンの大規模な3次元スキャンを,容易に解釈可能な形状で解析するための教師なし手法を提案する。
提案手法は,入力された3次元点群を学習された3次元形状の小さな集合に分解する確率的再構成モデルに基づく。
実世界の様々なシナリオから得られた7つの大型LiDARスキャンのデータセット上で,本モデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-04-19T14:49:31Z) - RGB-D based Stair Detection using Deep Learning for Autonomous Stair
Climbing [6.362951673024623]
本稿では,RGBマップと深度マップの両方の入力を持つニューラルネットワークアーキテクチャを提案する。
具体的には,RGBマップと深度マップの相補関係をネットワークが学習できるように,選択モジュールを設計する。
提案手法は,従来の最先端深層学習法と比較して精度の向上とリコールが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-02T11:22:52Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - PERCH 2.0 : Fast and Accurate GPU-based Perception via Search for Object
Pose Estimation [14.812000578324481]
本稿では,ポーズ推定のための探索手法であるPERCH 2.0を提案する。
提案手法は, PERCHの100倍の高速化を実現するとともに, 最先端のデータ駆動手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-08-01T19:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。