論文の概要: CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis
on Point Clouds
- arxiv url: http://arxiv.org/abs/2103.01977v1
- Date: Tue, 2 Mar 2021 19:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 01:47:01.100642
- Title: CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis
on Point Clouds
- Title(参考訳): CloudAAE: ポイントクラウド上のオンラインデータ合成による6Dオブジェクトポインター回帰学習
- Authors: Ge Gao, Mikko Lauri, Xiaolin Hu, Jianwei Zhang and Simone Frintrop
- Abstract要約: 点群に代表される深度情報から6Dオブジェクトのポーズを復元するシステムを提案する。
本稿では,linemod,linemodoclocion,ycbビデオデータセットにおけるシステムの有効性を示す。
- 参考スコア(独自算出の注目度): 30.485534055505678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is often desired to train 6D pose estimation systems on synthetic data
because manual annotation is expensive. However, due to the large domain gap
between the synthetic and real images, synthesizing color images is expensive.
In contrast, this domain gap is considerably smaller and easier to fill for
depth information. In this work, we present a system that regresses 6D object
pose from depth information represented by point clouds, and a lightweight data
synthesis pipeline that creates synthetic point cloud segments for training. We
use an augmented autoencoder (AAE) for learning a latent code that encodes 6D
object pose information for pose regression. The data synthesis pipeline only
requires texture-less 3D object models and desired viewpoints, and it is cheap
in terms of both time and hardware storage. Our data synthesis process is up to
three orders of magnitude faster than commonly applied approaches that render
RGB image data. We show the effectiveness of our system on the LineMOD, LineMOD
Occlusion, and YCB Video datasets. The implementation of our system is
available at: https://github.com/GeeeG/CloudAAE.
- Abstract(参考訳): 手動アノテーションが高価であるため,合成データ上での6次元ポーズ推定システムの訓練が望まれる。
しかし、合成画像と実画像の間の領域ギャップが大きいため、カラー画像の合成は高価である。
対照的に、この領域のギャップはかなり小さく、深度情報を埋めるのが簡単です。
本研究では,ポイントクラウドに代表される深度情報から6Dオブジェクトのポーズを復元するシステムと,トレーニング用の合成ポイントクラウドセグメントを生成する軽量データ合成パイプラインを提案する。
我々は6Dオブジェクトのポーズ情報を符号化する潜在コード学習に、拡張オートエンコーダ(AAE)を用いる。
データ合成パイプラインはテクスチャレスの3Dオブジェクトモデルと望ましい視点のみを必要とし、時間とハードウェアの両方のストレージの点で安価です。
我々のデータ合成プロセスは、RGB画像データをレンダリングする一般的なアプローチよりも最大3桁高速である。
本稿では,linemod,linemodoclocion,ycbビデオデータセットにおけるシステムの有効性を示す。
私たちのシステムの実装は、https://github.com/GeeeG/CloudAAE.comで利用可能です。
関連論文リスト
- PointRegGPT: Boosting 3D Point Cloud Registration using Generative Point-Cloud Pairs for Training [90.06520673092702]
生成点クラウドペアを用いた3Dポイントクラウドの登録をトレーニングのために促進するPointRegGPTを提案する。
我々の知る限り、これは屋内のクラウド登録のためのリアルなデータ生成を探求する最初の生成的アプローチである。
論文 参考訳(メタデータ) (2024-07-19T06:29:57Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - Mushroom Segmentation and 3D Pose Estimation from Point Clouds using Fully Convolutional Geometric Features and Implicit Pose Encoding [25.598155230329972]
我々は,キノコを分類する深層学習手法を開発し,深度センサで取得した点雲の形で3次元データに基づいてそれらのポーズを推定する。
我々はキノコシーンの合成データセットを作成し、各キノコのポーズのような3D情報を完全に認識する。
提案したネットワークは完全な畳み込みバックボーンを持ち、スパース3Dデータを解析し、インスタンスセグメンテーションとポーズ推定タスクの両方を暗黙的に定義するポーズ情報を予測する。
論文 参考訳(メタデータ) (2024-04-17T12:37:25Z) - AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - Intrinsic Image Decomposition Using Point Cloud Representation [13.771632868567277]
本稿では3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を紹介する。
PoInt-Netは効率的で、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-20T14:51:28Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic
Domains [6.187780920448869]
この研究は、長期6Dポーズトラッキングのためのデータ駆動最適化アプローチであるSe(3)-TrackNetを提示する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
ニューラルネットワークアーキテクチャは、ドメインシフトを減らすために機能のエンコーディングを適切に切り離し、Lie Algebraによる効果的な3D配向表現を提供する。
論文 参考訳(メタデータ) (2021-05-29T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。