論文の概要: Learning Articulated Shape with Keypoint Pseudo-labels from Web Images
- arxiv url: http://arxiv.org/abs/2304.14396v1
- Date: Thu, 27 Apr 2023 17:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:07:08.418008
- Title: Learning Articulated Shape with Keypoint Pseudo-labels from Web Images
- Title(参考訳): Web 画像からのキーポイント擬似ラベルによる調音形状の学習
- Authors: Anastasis Stathopoulos, Georgios Pavlakos, Ligong Han, Dimitris
Metaxas
- Abstract要約: 2Dキーポイントをラベル付けした50~150枚の画像を用いて,単眼で物体を再現するモデルを学ぶことができる。
われわれのアプローチでは、モデルのブートストラップを素早く行うことができ、2Dキーポイントをラベル付けした少数の画像しか必要としない。
- 参考スコア(独自算出の注目度): 14.416240574414537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper shows that it is possible to learn models for monocular 3D
reconstruction of articulated objects (e.g., horses, cows, sheep), using as few
as 50-150 images labeled with 2D keypoints. Our proposed approach involves
training category-specific keypoint estimators, generating 2D keypoint
pseudo-labels on unlabeled web images, and using both the labeled and
self-labeled sets to train 3D reconstruction models. It is based on two key
insights: (1) 2D keypoint estimation networks trained on as few as 50-150
images of a given object category generalize well and generate reliable
pseudo-labels; (2) a data selection mechanism can automatically create a
"curated" subset of the unlabeled web images that can be used for training --
we evaluate four data selection methods. Coupling these two insights enables us
to train models that effectively utilize web images, resulting in improved 3D
reconstruction performance for several articulated object categories beyond the
fully-supervised baseline. Our approach can quickly bootstrap a model and
requires only a few images labeled with 2D keypoints. This requirement can be
easily satisfied for any new object category. To showcase the practicality of
our approach for predicting the 3D shape of arbitrary object categories, we
annotate 2D keypoints on giraffe and bear images from COCO -- the annotation
process takes less than 1 minute per image.
- Abstract(参考訳): 本稿では,2Dキーポイントをラベル付けした50~150枚の画像を用いて,関節物体(馬,牛,羊など)のモノクル3次元再構成モデルを学ぶことができることを示す。
提案手法は,分類特化キーポイント推定器の訓練,ラベル付きウェブ画像上の2次元キーポイント擬似ラベルの生成,ラベル付きおよび自己ラベル付きセットによる3次元再構成モデルの訓練を含む。
本手法は,(1)対象カテゴリの50~150個の画像に対してトレーニングされた2次元キーポイント推定ネットワークを一般化し,信頼性の高い擬似ラベルを生成すること,(2)データ選択機構によって,トレーニングに使用できる未ラベルのWeb画像の「キュレート」サブセットを自動生成できること,(4つのデータ選択手法を評価した。
これら2つの洞察を結合することで、webイメージを効果的に活用するモデルのトレーニングが可能になり、完全な教師付きベースラインを超えた複数のarticulated objectカテゴリの3dリコンストラクションパフォーマンスが向上した。
我々のアプローチでは、モデルを簡単にブートストラップでき、2Dキーポイントでラベル付けされた少数の画像しか必要としない。
この要件は、任意の新しいオブジェクトカテゴリに対して容易に満足できます。
任意のオブジェクトカテゴリの3次元形状を予測するためのアプローチの実践性を実証するため、キリンの2Dキーポイントに注釈を付け、COCOの画像を保持する。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Piecewise Planar Hulls for Semi-Supervised Learning of 3D Shape and Pose
from 2D Images [133.68032636906133]
本研究では,1つの2次元画像から,物体の3次元形状とポーズをキーポイントで推定する問題について検討する。
形状とポーズは、カテゴリによって収集された画像と、その部分的な2Dキーポイントアノテーションから直接学習される。
論文 参考訳(メタデータ) (2022-11-14T16:18:11Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Learning 3D Semantic Segmentation with only 2D Image Supervision [18.785840615548473]
多視点融合を用いた2次元意味画像分割から派生した擬似ラベルから3次元モデルを訓練する。
提案するネットワークアーキテクチャである2D3DNetは,5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において,ベースラインよりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-21T17:56:28Z) - DOVE: Learning Deformable 3D Objects by Watching Videos [89.43105063468077]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。
本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文 参考訳(メタデータ) (2021-07-22T17:58:10Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。