論文の概要: Learning Feature Descriptors using Camera Pose Supervision
- arxiv url: http://arxiv.org/abs/2004.13324v3
- Date: Mon, 29 Jan 2024 06:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 01:26:20.148675
- Title: Learning Feature Descriptors using Camera Pose Supervision
- Title(参考訳): カメラポーズの監督による学習特徴記述子
- Authors: Qianqian Wang, Xiaowei Zhou, Bharath Hariharan, Noah Snavely
- Abstract要約: 本稿では,画像間の相対的なカメラポーズからのみ特徴記述子を学習可能な,弱教師付きフレームワークを提案する。
ピクセルレベルの地上通信はもはや不要なので、我々のフレームワークは、より大きく、より多様なデータセットのトレーニングを、より良い、偏見のない記述子に開放する。
- 参考スコア(独自算出の注目度): 101.56783569070221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on learned visual descriptors has shown promising
improvements in correspondence estimation, a key component of many 3D vision
tasks. However, existing descriptor learning frameworks typically require
ground-truth correspondences between feature points for training, which are
challenging to acquire at scale. In this paper we propose a novel
weakly-supervised framework that can learn feature descriptors solely from
relative camera poses between images. To do so, we devise both a new loss
function that exploits the epipolar constraint given by camera poses, and a new
model architecture that makes the whole pipeline differentiable and efficient.
Because we no longer need pixel-level ground-truth correspondences, our
framework opens up the possibility of training on much larger and more diverse
datasets for better and unbiased descriptors. We call the resulting descriptors
CAmera Pose Supervised, or CAPS, descriptors. Though trained with weak
supervision, CAPS descriptors outperform even prior fully-supervised
descriptors and achieve state-of-the-art performance on a variety of geometric
tasks. Project Page: https://qianqianwang68.github.io/CAPS/
- Abstract(参考訳): 近年,多くの3次元視覚タスクの重要な構成要素である対応推定における有望な改善が示されている。
しかし、既存のディスクリプタ学習フレームワークは通常、トレーニングのために特徴点間の基底的対応を必要とする。
本稿では,画像間の相対的なカメラポーズからのみ特徴記述子を学習できる,新しい弱教師付きフレームワークを提案する。
そこで我々は,カメラのポーズによって与えられるエピポーラ制約を利用する新たな損失関数と,パイプライン全体を微分可能かつ効率的にする新しいモデルアーキテクチャを考案した。
ピクセルレベルの地上通信はもはや不要なので、我々のフレームワークは、より大きく、より多様なデータセットのトレーニングを、より良い、偏見のない記述子に開放する。
得られた記述子をCAmera Pose Supervised(CAPS)と呼びます。
弱い監督の訓練を受けたCAPSディスクリプタは、完全に監督されたディスクリプタよりも優れており、様々な幾何学的タスクにおける最先端のパフォーマンスを実現している。
プロジェクトページ: https://qianqianwang68.github.io/caps/
関連論文リスト
- Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Residual Learning for Image Point Descriptors [56.917951170421894]
本稿では,手作りの検出器とディスクリプタを用いて局所画像記述子を学習する,非常にシンプルで効果的な手法を提案する。
我々は,手書き記述子にすでに存在する知識を活用することで,最終記述子を最適化する。
本手法は,非微分関数を用いたアンサンブル学習や学習に応用できる可能性がある。
論文 参考訳(メタデータ) (2023-12-24T12:51:30Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Domain Adaptation of Networks for Camera Pose Estimation: Learning
Camera Pose Estimation Without Pose Labels [8.409695277909421]
ディープラーニングの重要な批判の1つは、モデルをトレーニングするためには、大量の高価で入手困難なトレーニングデータが必要であることである。
DANCEは、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする。
ラベル付き合成画像を3Dモデルからレンダリングし、合成画像と実際の画像の間に必然的な領域ギャップを埋める。
論文 参考訳(メタデータ) (2021-11-29T17:45:38Z) - Digging Into Self-Supervised Learning of Feature Descriptors [14.47046413243358]
強力な機能記述子に繋がる一連の改善を提案する。
強負の採鉱において, 対面内からバッチ内への探索空間の増大が一貫した改善をもたらすことを示す。
合成ホモグラフィ変換,色強調,フォトリアリスティック画像スタイリングの組み合わせが有用であることを示す。
論文 参考訳(メタデータ) (2021-10-10T12:22:44Z) - UPDesc: Unsupervised Point Descriptor Learning for Robust Registration [54.95201961399334]
UPDescは、ロバストポイントクラウド登録のためのポイント記述子を学習するための教師なしの方法である。
学習した記述子は既存の教師なし手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-08-05T17:11:08Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。