論文の概要: Robust Category-Level 3D Pose Estimation from Synthetic Data
- arxiv url: http://arxiv.org/abs/2305.16124v1
- Date: Thu, 25 May 2023 14:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:39:53.567112
- Title: Robust Category-Level 3D Pose Estimation from Synthetic Data
- Title(参考訳): 合成データを用いたロバストカテゴリレベル3次元ポーズ推定
- Authors: Jiahao Yang, Wufei Ma, Angtian Wang, Xiaoding Yuan, Alan Yuille, Adam
Kortylewski
- Abstract要約: CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
- 参考スコア(独自算出の注目度): 17.247607850702558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining accurate 3D object poses is vital for numerous computer vision
applications, such as 3D reconstruction and scene understanding. However,
annotating real-world objects is time-consuming and challenging. While
synthetically generated training data is a viable alternative, the domain shift
between real and synthetic data is a significant challenge. In this work, we
aim to narrow the performance gap between models trained on synthetic data and
few real images and fully supervised models trained on large-scale data. We
achieve this by approaching the problem from two perspectives: 1) We introduce
SyntheticP3D, a new synthetic dataset for object pose estimation generated from
CAD models and enhanced with a novel algorithm. 2) We propose a novel approach
(CC3D) for training neural mesh models that perform pose estimation via inverse
rendering. In particular, we exploit the spatial relationships between features
on the mesh surface and a contrastive learning scheme to guide the domain
adaptation process. Combined, these two approaches enable our models to perform
competitively with state-of-the-art models using only 10% of the respective
real training images, while outperforming the SOTA model by 10.4% with a
threshold of pi/18 using only 50% of the real training data. Our trained model
further demonstrates robust generalization to out-of-distribution scenarios
despite being trained with minimal real data.
- Abstract(参考訳): 正確な3dオブジェクトのポーズを得ることは、3d再構成やシーン理解といった多くのコンピュータビジョンアプリケーションにとって不可欠である。
しかし、現実世界のオブジェクトにアノテートするのは時間がかかり、困難である。
合成学習データは有効な代替手段であるが、実データと合成データのドメインシフトは重要な課題である。
本研究では,合成データでトレーニングされたモデルと,実画像が少ないモデルと,大規模データでトレーニングされた完全教師付きモデルとの性能ギャップを狭めることを目的とする。
我々はこの問題を2つの視点から解決する。
1) CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを導入する。
2) 逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
特に,メッシュ表面の特徴とコントラスト学習スキーム間の空間的関係を利用して,ドメイン適応過程を導出する。
これら2つのモデルを組み合わせることで、各実トレーニング画像の10%しか使用せず、実際のトレーニングデータの50%しか使用していないpi/18のしきい値でSOTAモデルを10.4%上回る結果が得られる。
我々の訓練されたモデルは、最小限の実データで訓練されているにもかかわらず、配布外シナリオへの堅牢な一般化をさらに示す。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Sim2Real Instance-Level Style Transfer for 6D Pose Estimation [0.4893345190925177]
本研究では,6次元ポーズ推定ネットワークトレーニングのための実時間(sim2real)インスタンスレベルの転送手法を提案する。
提案手法は,人間の介入なしに,対象物体のスタイルを人工物から現実物へ個別に伝達する。
論文 参考訳(メタデータ) (2022-03-03T23:46:47Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Synthetic Data and Hierarchical Object Detection in Overhead Imagery [0.0]
衛星画像における低・ゼロサンプル学習を向上させるための新しい合成データ生成および拡張技術を開発した。
合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。
論文 参考訳(メタデータ) (2021-01-29T22:52:47Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。