論文の概要: CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis
on Point Clouds
- arxiv url: http://arxiv.org/abs/2103.01977v1
- Date: Tue, 2 Mar 2021 19:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 01:47:01.100642
- Title: CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis
on Point Clouds
- Title(参考訳): CloudAAE: ポイントクラウド上のオンラインデータ合成による6Dオブジェクトポインター回帰学習
- Authors: Ge Gao, Mikko Lauri, Xiaolin Hu, Jianwei Zhang and Simone Frintrop
- Abstract要約: 点群に代表される深度情報から6Dオブジェクトのポーズを復元するシステムを提案する。
本稿では,linemod,linemodoclocion,ycbビデオデータセットにおけるシステムの有効性を示す。
- 参考スコア(独自算出の注目度): 30.485534055505678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is often desired to train 6D pose estimation systems on synthetic data
because manual annotation is expensive. However, due to the large domain gap
between the synthetic and real images, synthesizing color images is expensive.
In contrast, this domain gap is considerably smaller and easier to fill for
depth information. In this work, we present a system that regresses 6D object
pose from depth information represented by point clouds, and a lightweight data
synthesis pipeline that creates synthetic point cloud segments for training. We
use an augmented autoencoder (AAE) for learning a latent code that encodes 6D
object pose information for pose regression. The data synthesis pipeline only
requires texture-less 3D object models and desired viewpoints, and it is cheap
in terms of both time and hardware storage. Our data synthesis process is up to
three orders of magnitude faster than commonly applied approaches that render
RGB image data. We show the effectiveness of our system on the LineMOD, LineMOD
Occlusion, and YCB Video datasets. The implementation of our system is
available at: https://github.com/GeeeG/CloudAAE.
- Abstract(参考訳): 手動アノテーションが高価であるため,合成データ上での6次元ポーズ推定システムの訓練が望まれる。
しかし、合成画像と実画像の間の領域ギャップが大きいため、カラー画像の合成は高価である。
対照的に、この領域のギャップはかなり小さく、深度情報を埋めるのが簡単です。
本研究では,ポイントクラウドに代表される深度情報から6Dオブジェクトのポーズを復元するシステムと,トレーニング用の合成ポイントクラウドセグメントを生成する軽量データ合成パイプラインを提案する。
我々は6Dオブジェクトのポーズ情報を符号化する潜在コード学習に、拡張オートエンコーダ(AAE)を用いる。
データ合成パイプラインはテクスチャレスの3Dオブジェクトモデルと望ましい視点のみを必要とし、時間とハードウェアの両方のストレージの点で安価です。
我々のデータ合成プロセスは、RGB画像データをレンダリングする一般的なアプローチよりも最大3桁高速である。
本稿では,linemod,linemodoclocion,ycbビデオデータセットにおけるシステムの有効性を示す。
私たちのシステムの実装は、https://github.com/GeeeG/CloudAAE.comで利用可能です。
関連論文リスト
- AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - RGB-D Mapping and Tracking in a Plenoxel Radiance Field [5.239559610798646]
ビュー合成モデルと3次元再構成モデルの間に重要な相違点を示す。
また、一般的な外向きのシーンにおける正確な幾何学をモデル化するために、奥行きセンサが不可欠である理由についてもコメントする。
提案手法は,タスクのマッピングと追跡を両立させるとともに,競合するニューラルネットワークのアプローチよりも高速である。
論文 参考訳(メタデータ) (2023-07-07T06:05:32Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Self-Supervised Learning with Multi-View Rendering for 3D Point Cloud
Analysis [33.31864436614945]
本稿では,3次元点雲モデルのための新しい事前学習手法を提案する。
我々の事前訓練は、局所的なピクセル/ポイントレベルの対応損失と、大域的な画像/ポイントの雲のレベル損失によって自己管理される。
これらの改善されたモデルは、さまざまなデータセットや下流タスクにおける既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T05:23:03Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic
Domains [6.187780920448869]
この研究は、長期6Dポーズトラッキングのためのデータ駆動最適化アプローチであるSe(3)-TrackNetを提示する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
ニューラルネットワークアーキテクチャは、ドメインシフトを減らすために機能のエンコーディングを適切に切り離し、Lie Algebraによる効果的な3D配向表現を提供する。
論文 参考訳(メタデータ) (2021-05-29T23:56:05Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。