論文の概要: Domain Adaptation of Networks for Camera Pose Estimation: Learning
Camera Pose Estimation Without Pose Labels
- arxiv url: http://arxiv.org/abs/2111.14741v1
- Date: Mon, 29 Nov 2021 17:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:34:13.070056
- Title: Domain Adaptation of Networks for Camera Pose Estimation: Learning
Camera Pose Estimation Without Pose Labels
- Title(参考訳): カメラポーズ推定のためのネットワークのドメイン適応--ポーズラベルのないカメラポーズ推定の学習
- Authors: Jack Langerman, Ziming Qiu, G\'abor S\"or\"os, D\'avid Seb\H{o}k, Yao
Wang, Howard Huang
- Abstract要約: ディープラーニングの重要な批判の1つは、モデルをトレーニングするためには、大量の高価で入手困難なトレーニングデータが必要であることである。
DANCEは、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする。
ラベル付き合成画像を3Dモデルからレンダリングし、合成画像と実際の画像の間に必然的な領域ギャップを埋める。
- 参考スコア(独自算出の注目度): 8.409695277909421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key criticisms of deep learning is that large amounts of expensive
and difficult-to-acquire training data are required in order to train models
with high performance and good generalization capabilities. Focusing on the
task of monocular camera pose estimation via scene coordinate regression (SCR),
we describe a novel method, Domain Adaptation of Networks for Camera pose
Estimation (DANCE), which enables the training of models without access to any
labels on the target task. DANCE requires unlabeled images (without known
poses, ordering, or scene coordinate labels) and a 3D representation of the
space (e.g., a scanned point cloud), both of which can be captured with minimal
effort using off-the-shelf commodity hardware. DANCE renders labeled synthetic
images from the 3D model, and bridges the inevitable domain gap between
synthetic and real images by applying unsupervised image-level domain
adaptation techniques (unpaired image-to-image translation). When tested on
real images, the SCR model trained with DANCE achieved comparable performance
to its fully supervised counterpart (in both cases using PnP-RANSAC for final
pose estimation) at a fraction of the cost. Our code and dataset are available
at https://github.com/JackLangerman/dance
- Abstract(参考訳): ディープラーニングの重要な批判の1つは、高いパフォーマンスと優れた一般化能力を持つモデルをトレーニングするために、大量の高価で取得が難しいトレーニングデータが必要であることである。
本研究では,シーン座標回帰(scr)による単眼カメラポーズ推定の課題に着目し,カメラポーズ推定(dance)のためのネットワークのドメイン適応手法を提案する。
DANCEは、未表示の画像(ポーズ、順序付け、シーン座標ラベルなしで)と空間の3D表現(例えば、スキャンされた点雲)を必要とするが、どちらも市販のコモディティハードウェアを使って最小限の努力で撮影することができる。
DANCEは3Dモデルからラベル付き合成画像を描画し、教師なし画像レベル領域適応技術(未ペア画像から画像への変換)を適用して、合成画像と実画像の間の避けられない領域ギャップを埋める。
実画像でテストすると、DANCEで訓練されたSCRモデルは、完全に監督された(どちらの場合も、最終的なポーズ推定にPnP-RANSACを使用する)モデルと同等の性能をコストのごく一部で達成した。
私たちのコードとデータセットはhttps://github.com/jacklangerman/danceで利用可能です。
関連論文リスト
- ContraNeRF: 3D-Aware Generative Model via Contrastive Learning with
Unsupervised Implicit Pose Embedding [40.36882490080341]
暗黙のポーズ埋め込みを用いたコントラスト学習による新しい3D認識型GAN最適化手法を提案する。
判別器は、与えられた画像から高次元の暗黙のポーズ埋め込みを推定し、ポーズ埋め込みについて対照的な学習を行う。
提案手法は、カメラのポーズを検索したり推定したりしないため、標準カメラのポーズが未定義であるデータセットに使用できる。
論文 参考訳(メタデータ) (2023-04-27T07:53:13Z) - Markerless Camera-to-Robot Pose Estimation via Self-supervised
Sim-to-Real Transfer [26.21320177775571]
本稿では,オンラインカメラ・ロボット・キャリブレーションと自己監督型トレーニング手法を備えたエンドツーエンドのポーズ推定フレームワークを提案する。
我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。
論文 参考訳(メタデータ) (2023-02-28T05:55:42Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - Perspective Flow Aggregation for Data-Limited 6D Object Pose Estimation [121.02948087956955]
宇宙や水中の深層などのいくつかのアプリケーションでは、実際の画像を取得することは、注釈のないものであっても、事実上不可能である。
本稿では,合成画像のみに限定してトレーニングできる手法を提案する。
これは、アノテートされた実画像を必要としない場合、トレーニングのためにアノテートされた実画像を必要とするメソッドと同等に動作し、20個の実画像を使用する場合、かなりパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-03-18T10:20:21Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Learning Feature Descriptors using Camera Pose Supervision [101.56783569070221]
本稿では,画像間の相対的なカメラポーズからのみ特徴記述子を学習可能な,弱教師付きフレームワークを提案する。
ピクセルレベルの地上通信はもはや不要なので、我々のフレームワークは、より大きく、より多様なデータセットのトレーニングを、より良い、偏見のない記述子に開放する。
論文 参考訳(メタデータ) (2020-04-28T06:35:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。