Fugu-MT 論文翻訳(概要): FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects

論文の概要: FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects

arxiv url: http://arxiv.org/abs/2310.12974v1
Date: Thu, 19 Oct 2023 17:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 13:33:14.047889
Title: FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
Title（参考訳）: 高速なRGB-Dで3Dオブジェクトを分類できるFSD
Authors: Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira, Muhammad Zubair Irshad
Abstract要約: 本研究は,実世界の3次元ラベル付きデータに依存しない3次元オブジェクト認識の課題に対処する。我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。
参考スコア（独自算出の注目度）: 37.175069234979645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we address the challenging task of 3D object recognition without the reliance on real-world 3D labeled data. Our goal is to predict the 3D shape, size, and 6D pose of objects within a single RGB-D image, operating at the category level and eliminating the need for CAD models during inference. While existing self-supervised methods have made strides in this field, they often suffer from inefficiencies arising from non-end-to-end processing, reliance on separate models for different object categories, and slow surface extraction during the training of implicit reconstruction models; thus hindering both the speed and real-world applicability of the 3D recognition process. Our proposed method leverages a multi-stage training pipeline, designed to efficiently transfer synthetic performance to the real-world domain. This approach is achieved through a combination of 2D and 3D supervised losses during the synthetic domain training, followed by the incorporation of 2D supervised and 3D self-supervised losses on real-world data in two additional learning stages. By adopting this comprehensive strategy, our method successfully overcomes the aforementioned limitations and outperforms existing self-supervised 6D pose and size estimation baselines on the NOCS test-set with a 16.4% absolute improvement in mAP for 6D pose estimation while running in near real-time at 5 Hz.
Abstract（参考訳）: 本研究では,実世界の3Dラベルデータに依存しない3Dオブジェクト認識の課題に対処する。我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。既存の自己監督手法はこの分野で進歩を遂げているが、非エンドツーエンド処理による非効率性、異なる対象カテゴリの別々のモデルへの依存、暗黙の再構成モデルのトレーニング中の表面抽出の遅さ、そして、3D認識プロセスの速度と実世界の適用性を妨げている。提案手法は,実世界領域に効率的に合成性能を伝達する多段階訓練パイプラインを活用する。このアプローチは、合成ドメイントレーニング中の2dと3dの教師付き損失の組み合わせと、さらに2つの学習段階における実世界のデータに対する2d教師付きおよび3d自己教師付き損失の組込みによって達成される。この包括的戦略を採用することで、上記の制限を克服し、既存の自監督型6DポーズとNOCSテストセットにおけるサイズ推定ベースラインを16.4%改善し、ほぼリアルタイムで5Hzで6Dポーズ推定を行う。

関連論文リスト

Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。提案手法を5つの挑戦的データセットで評価する。
論文参考訳（メタデータ） (2025-03-24T13:46:21Z)
6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting [7.7145084897748974]
1台のRGB-Dカメラで6Dオブジェクトのポーズを推定・追跡する新しい手法である6DOPE-GSを提案する。その結果,6DOPE-GSはモデルレス同時ポーズトラッキングと再構築のための最先端ベースラインの性能と一致していることがわかった。また,実世界の環境下での動的物体追跡と再構成のための手法の適合性を実証した。
論文参考訳（メタデータ） (2024-12-02T14:32:19Z)
P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders [34.64343313442465]
3Dの事前学習は、3D知覚タスクの進行に欠かせない。しかし、クリーンな3Dデータの不足は、3D事前学習のスケールアップに重大な課題をもたらす。革新的な自己指導型事前学習フレームワークを導入する。本手法は,3次元分類,検出,少数ショット学習における最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-19T13:59:53Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文参考訳（メタデータ） (2024-03-21T10:38:18Z)
Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery [0.0]
本研究では,拡張現実(AR)における正確な6次元ポーズ推定の課題に対処する。本稿では,z軸変換と焦点長の推定を戦略的に分解する手法を提案する。この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-20T09:22:22Z)
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文参考訳（メタデータ） (2022-05-14T05:35:35Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
Learning Stereopsis from Geometric Synthesis for 6D Object Pose Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文参考訳（メタデータ） (2021-09-25T02:55:05Z)
GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator [51.89441403642665]
剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。本稿では,完全学習型オブジェクトポーズ推定器を提案する。
論文参考訳（メタデータ） (2021-02-24T09:11:31Z)
3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文参考訳（メタデータ） (2020-11-23T08:05:28Z)
SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static Images [44.78174845839193]
近年の取り組みは、注釈付き2DシルエットによるRGB画像から3Dの監督なしに3Dの再構築を学ぶことに変わった。これらのテクニックは、トレーニング中に同じオブジェクトインスタンスのマルチビューアノテーションを必要とする。本研究では,SDF-SRNを提案する。
論文参考訳（メタデータ） (2020-10-20T17:59:47Z)
se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文参考訳（メタデータ） (2020-07-27T21:09:36Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。