論文の概要: ODAM: Object Detection, Association, and Mapping using Posed RGB Video
- arxiv url: http://arxiv.org/abs/2108.10165v1
- Date: Mon, 23 Aug 2021 13:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:40:40.989418
- Title: ODAM: Object Detection, Association, and Mapping using Posed RGB Video
- Title(参考訳): ODAM: Posed RGB Video を用いたオブジェクト検出・アソシエーション・マッピング
- Authors: Kejie Li, Daniel DeTone, Steven Chen, Minh Vo, Ian Reid, Hamid
Rezatofighi, Chris Sweeney, Julian Straub, Richard Newcombe
- Abstract要約: ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムは,ディープラーニングのフロントエンドを用いて,与えられたRGBフレームから3Dオブジェクトを検出し,グラフニューラルネットワーク(GNN)を用いてグローバルなオブジェクトベースマップに関連付ける。
- 参考スコア(独自算出の注目度): 36.16010611723447
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Localizing objects and estimating their extent in 3D is an important step
towards high-level 3D scene understanding, which has many applications in
Augmented Reality and Robotics. We present ODAM, a system for 3D Object
Detection, Association, and Mapping using posed RGB videos. The proposed system
relies on a deep learning front-end to detect 3D objects from a given RGB frame
and associate them to a global object-based map using a graph neural network
(GNN). Based on these frame-to-model associations, our back-end optimizes
object bounding volumes, represented as super-quadrics, under multi-view
geometry constraints and the object scale prior. We validate the proposed
system on ScanNet where we show a significant improvement over existing
RGB-only methods.
- Abstract(参考訳): 物体を3Dで局所化し、その範囲を推定することは、拡張現実とロボティクスに多くの応用がある高レベルの3Dシーン理解への重要なステップである。
ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムはディープラーニングのフロントエンドを用いて、与えられたRGBフレームから3Dオブジェクトを検出し、グラフニューラルネットワーク(GNN)を用いてそれらをグローバルなオブジェクトベースマップに関連付ける。
これらのフレームからモデルへの関係に基づいて、バックエンドは、マルチビューの幾何学的制約とオブジェクトスケールの前に、スーパークアドリックとして表現されるオブジェクトバウンディングボリュームを最適化します。
提案手法をScanNet上で検証し,既存のRGB法よりも大幅に改善したことを示す。
関連論文リスト
- FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything [1.5728609542259502]
本稿では,RGB-D画像におけるオブジェクトの堅牢な3次元セグメンテーションに適応した,徹底的なパイプラインであるFusionVisionを紹介する。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
これらのコンポーネント間の相乗効果と3次元シーン理解への統合により、オブジェクトの検出とセグメンテーションの密接な融合が保証される。
論文 参考訳(メタデータ) (2024-02-29T22:59:27Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - DSP-SLAM: Object Oriented SLAM with Deep Shape Priors [16.867669408751507]
対象物に対する高密度3次元モデルのリッチで正確な関節マップを構築するオブジェクト指向SLAMシステムを提案する。
DSP-SLAMは特徴ベースのSLAMシステムによって再構築された3Dポイントクラウドを入力として取り込む。
本評価では,近年の深層構造復元法に対して,物体の姿勢と形状の復元が改善したことを示す。
論文 参考訳(メタデータ) (2021-08-21T10:00:12Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - Frustum VoxNet for 3D object detection from RGB-D or Depth images [1.14219428942199]
RGB-Dまたは深度のみの点群からの新しい3次元物体検出システムについて述べる。
我々のシステムはまず2Dで物体を検知する(RGBでも擬似RGBでも)。
我々のシステムの主な新規性は、酸化するフラストラムのどの部分(3D提案)を決定づけることである。
論文 参考訳(メタデータ) (2019-10-12T04:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。