論文の概要: FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
- arxiv url: http://arxiv.org/abs/2310.12974v1
- Date: Thu, 19 Oct 2023 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:33:14.047889
- Title: FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
- Title(参考訳): 高速なRGB-Dで3Dオブジェクトを分類できるFSD
- Authors: Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira,
Muhammad Zubair Irshad
- Abstract要約: 本研究は,実世界の3次元ラベル付きデータに依存しない3次元オブジェクト認識の課題に対処する。
我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。
- 参考スコア(独自算出の注目度): 37.175069234979645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenging task of 3D object recognition
without the reliance on real-world 3D labeled data. Our goal is to predict the
3D shape, size, and 6D pose of objects within a single RGB-D image, operating
at the category level and eliminating the need for CAD models during inference.
While existing self-supervised methods have made strides in this field, they
often suffer from inefficiencies arising from non-end-to-end processing,
reliance on separate models for different object categories, and slow surface
extraction during the training of implicit reconstruction models; thus
hindering both the speed and real-world applicability of the 3D recognition
process. Our proposed method leverages a multi-stage training pipeline,
designed to efficiently transfer synthetic performance to the real-world
domain. This approach is achieved through a combination of 2D and 3D supervised
losses during the synthetic domain training, followed by the incorporation of
2D supervised and 3D self-supervised losses on real-world data in two
additional learning stages. By adopting this comprehensive strategy, our method
successfully overcomes the aforementioned limitations and outperforms existing
self-supervised 6D pose and size estimation baselines on the NOCS test-set with
a 16.4% absolute improvement in mAP for 6D pose estimation while running in
near real-time at 5 Hz.
- Abstract(参考訳): 本研究では,実世界の3Dラベルデータに依存しない3Dオブジェクト認識の課題に対処する。
我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。
既存の自己監督手法はこの分野で進歩を遂げているが、非エンドツーエンド処理による非効率性、異なる対象カテゴリの別々のモデルへの依存、暗黙の再構成モデルのトレーニング中の表面抽出の遅さ、そして、3D認識プロセスの速度と実世界の適用性を妨げている。
提案手法は,実世界領域に効率的に合成性能を伝達する多段階訓練パイプラインを活用する。
このアプローチは、合成ドメイントレーニング中の2dと3dの教師付き損失の組み合わせと、さらに2つの学習段階における実世界のデータに対する2d教師付きおよび3d自己教師付き損失の組込みによって達成される。
この包括的戦略を採用することで、上記の制限を克服し、既存の自監督型6DポーズとNOCSテストセットにおけるサイズ推定ベースラインを16.4%改善し、ほぼリアルタイムで5Hzで6Dポーズ推定を行う。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery [0.0]
本研究では,拡張現実(AR)における正確な6次元ポーズ推定の課題に対処する。
本稿では,z軸変換と焦点長の推定を戦略的に分解する手法を提案する。
この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-20T09:22:22Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - 3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。
提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。
これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文 参考訳(メタデータ) (2020-11-23T08:05:28Z) - SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static
Images [44.78174845839193]
近年の取り組みは、注釈付き2DシルエットによるRGB画像から3Dの監督なしに3Dの再構築を学ぶことに変わった。
これらのテクニックは、トレーニング中に同じオブジェクトインスタンスのマルチビューアノテーションを必要とする。
本研究では,SDF-SRNを提案する。
論文 参考訳(メタデータ) (2020-10-20T17:59:47Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。