論文の概要: FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
- arxiv url: http://arxiv.org/abs/2310.12974v1
- Date: Thu, 19 Oct 2023 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:33:14.047889
- Title: FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
- Title(参考訳): 高速なRGB-Dで3Dオブジェクトを分類できるFSD
- Authors: Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira,
Muhammad Zubair Irshad
- Abstract要約: 本研究は,実世界の3次元ラベル付きデータに依存しない3次元オブジェクト認識の課題に対処する。
我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。
- 参考スコア(独自算出の注目度): 37.175069234979645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenging task of 3D object recognition
without the reliance on real-world 3D labeled data. Our goal is to predict the
3D shape, size, and 6D pose of objects within a single RGB-D image, operating
at the category level and eliminating the need for CAD models during inference.
While existing self-supervised methods have made strides in this field, they
often suffer from inefficiencies arising from non-end-to-end processing,
reliance on separate models for different object categories, and slow surface
extraction during the training of implicit reconstruction models; thus
hindering both the speed and real-world applicability of the 3D recognition
process. Our proposed method leverages a multi-stage training pipeline,
designed to efficiently transfer synthetic performance to the real-world
domain. This approach is achieved through a combination of 2D and 3D supervised
losses during the synthetic domain training, followed by the incorporation of
2D supervised and 3D self-supervised losses on real-world data in two
additional learning stages. By adopting this comprehensive strategy, our method
successfully overcomes the aforementioned limitations and outperforms existing
self-supervised 6D pose and size estimation baselines on the NOCS test-set with
a 16.4% absolute improvement in mAP for 6D pose estimation while running in
near real-time at 5 Hz.
- Abstract(参考訳): 本研究では,実世界の3Dラベルデータに依存しない3Dオブジェクト認識の課題に対処する。
我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。
既存の自己監督手法はこの分野で進歩を遂げているが、非エンドツーエンド処理による非効率性、異なる対象カテゴリの別々のモデルへの依存、暗黙の再構成モデルのトレーニング中の表面抽出の遅さ、そして、3D認識プロセスの速度と実世界の適用性を妨げている。
提案手法は,実世界領域に効率的に合成性能を伝達する多段階訓練パイプラインを活用する。
このアプローチは、合成ドメイントレーニング中の2dと3dの教師付き損失の組み合わせと、さらに2つの学習段階における実世界のデータに対する2d教師付きおよび3d自己教師付き損失の組込みによって達成される。
この包括的戦略を採用することで、上記の制限を克服し、既存の自監督型6DポーズとNOCSテストセットにおけるサイズ推定ベースラインを16.4%改善し、ほぼリアルタイムで5Hzで6Dポーズ推定を行う。
関連論文リスト
- FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Learning 6D Pose Estimation from Synthetic RGBD Images for Robotic
Applications [0.6299766708197883]
提案したパイプラインは、興味のある対象のために大量の写真リアリスティックなRGBD画像を生成することができる。
オブジェクト検出器YOLO-V4-tinyと6次元ポーズ推定アルゴリズムPVN3Dを統合し,リアルタイム2次元ポーズ推定手法を開発した。
結果として得られたネットワークは、LineModデータセットで評価した場合の最先端手法と比較して、競合性能を示す。
論文 参考訳(メタデータ) (2022-08-30T14:17:15Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - 3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。
提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。
これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文 参考訳(メタデータ) (2020-11-23T08:05:28Z) - SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static
Images [44.78174845839193]
近年の取り組みは、注釈付き2DシルエットによるRGB画像から3Dの監督なしに3Dの再構築を学ぶことに変わった。
これらのテクニックは、トレーニング中に同じオブジェクトインスタンスのマルチビューアノテーションを必要とする。
本研究では,SDF-SRNを提案する。
論文 参考訳(メタデータ) (2020-10-20T17:59:47Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。