論文の概要: Self-supervised learning of object pose estimation using keypoint
prediction
- arxiv url: http://arxiv.org/abs/2302.07360v1
- Date: Tue, 14 Feb 2023 21:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:18:17.148136
- Title: Self-supervised learning of object pose estimation using keypoint
prediction
- Title(参考訳): キーポイント予測を用いたオブジェクトポーズ推定の自己教師付き学習
- Authors: Zahra Gharaee and Felix J\"arem\"o Lawin and Per-Erik Forss\'en
- Abstract要約: 本稿では,物体のポーズと形状予測の最近の進歩について述べる。
主な貢献は、カテゴリ固有の形状上の位置に対応するキーポイントの自己教師付き学習によるカメラポーズ予測への新しいアプローチである。
カメラポーズ予測に対する提案手法は,最先端手法と比較して,大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes recent developments in object specific pose and shape
prediction from single images. The main contribution is a new approach to
camera pose prediction by self-supervised learning of keypoints corresponding
to locations on a category specific deformable shape. We designed a network to
generate a proxy ground-truth heatmap from a set of keypoints distributed all
over the category-specific mean shape, where each is represented by a unique
color on a labeled texture. The proxy ground-truth heatmap is used to train a
deep keypoint prediction network, which can be used in online inference. The
proposed approach to camera pose prediction show significant improvements when
compared with state-of-the-art methods.
Our approach to camera pose prediction is used to infer 3D objects from 2D
image frames of video sequences online. To train the reconstruction model, it
receives only a silhouette mask from a single frame of a video sequence in
every training step and a category-specific mean object shape. We conducted
experiments using three different datasets representing the bird category: the
CUB [51] image dataset, YouTubeVos and the Davis video datasets. The network is
trained on the CUB dataset and tested on all three datasets. The online
experiments are demonstrated on YouTubeVos and Davis [56] video sequences using
a network trained on the CUB training set.
- Abstract(参考訳): 本稿では,物体のポーズと形状予測の最近の進歩について述べる。
主な貢献は、カテゴリ固有の変形可能な形状上の位置に対応するキーポイントの自己教師付き学習によるカメラポーズ予測への新しいアプローチである。
我々は,カテゴリ別平均形状全体に分布するキーポイントの集合から,それぞれがラベル付きテクスチャ上のユニークな色で表される,プロキシ基底ヒートマップを生成するネットワークを設計した。
proxy ground-truth heatmapは、オンライン推論で使用可能な、深いキーポイント予測ネットワークのトレーニングに使用される。
カメラポーズ予測に対する提案手法は,最先端手法と比較して大幅に改善されている。
提案手法は,オンラインビデオシーケンスの2次元画像フレームから3次元物体を推定するために用いられる。
レコンストラクションモデルを訓練するには、トレーニングステップ毎にビデオシーケンスの1フレームからシルエットマスクのみを受信し、カテゴリ固有の平均オブジェクト形状を受信する。
CUB[51]イメージデータセット,YouTubeVos,Davisビデオデータセットの3つの異なるデータセットを用いて実験を行った。
ネットワークはCUBデータセットでトレーニングされ、3つのデータセットすべてでテストされる。
オンライン実験は、CUBトレーニングセットでトレーニングされたネットワークを使用して、YouTubeVosとDavis [56]ビデオシーケンスで実証されている。
関連論文リスト
- Self-Supervised Learning of Object Segmentation from Unlabeled RGB-D
Videos [11.40098981859033]
本研究では,RGB画像中の剛体物体をセグメント化するための自己教師型学習システムを提案する。
提案するパイプラインは、静的オブジェクトのラベル付けされていないRGB-Dビデオに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-04-09T23:13:39Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Multi-Category Mesh Reconstruction From Image Collections [90.24365811344987]
本稿では, 一連の変形可能な3次元モデルとインスタンス固有の変形, ポーズ, テクスチャのセットを組み合わせた, オブジェクトのテクスチャメッシュを推定する手法を提案する。
本手法は,前景マスクと粗いカメラポーズのみを監督として,複数の対象カテゴリの画像を用いて訓練する。
実験により,提案フレームワークは異なる対象カテゴリを区別し,教師なしの方法でカテゴリ固有の形状を学習できることが示唆された。
論文 参考訳(メタデータ) (2021-10-21T16:32:31Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z) - A Self-supervised Learning System for Object Detection in Videos Using
Random Walks on Graphs [20.369646864364547]
本稿では,画像中の対象の新規かつ未確認なカテゴリを検出するための,自己教師型学習システムを提案する。
提案システムは,様々なオブジェクトを含むシーンの未ラベル映像を入力として受信する。
ビデオのフレームは深度情報を使ってオブジェクトに分割され、各ビデオに沿ってセグメントが追跡される。
論文 参考訳(メタデータ) (2020-11-10T23:37:40Z) - Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。
そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-13T08:01:24Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。