論文の概要: Self-supervised Geometric Perception
- arxiv url: http://arxiv.org/abs/2103.03114v1
- Date: Thu, 4 Mar 2021 15:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 19:13:44.443275
- Title: Self-supervised Geometric Perception
- Title(参考訳): 自己監視型ジオメトリック知覚
- Authors: Heng Yang, Wei Dong, Luca Carlone, Vladlen Koltun
- Abstract要約: 自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 96.89966337518854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present self-supervised geometric perception (SGP), the first general
framework to learn a feature descriptor for correspondence matching without any
ground-truth geometric model labels (e.g., camera poses, rigid
transformations). Our first contribution is to formulate geometric perception
as an optimization problem that jointly optimizes the feature descriptor and
the geometric models given a large corpus of visual measurements (e.g., images,
point clouds). Under this optimization formulation, we show that two important
streams of research in vision, namely robust model fitting and deep feature
learning, correspond to optimizing one block of the unknown variables while
fixing the other block. This analysis naturally leads to our second
contribution -- the SGP algorithm that performs alternating minimization to
solve the joint optimization. SGP iteratively executes two meta-algorithms: a
teacher that performs robust model fitting given learned features to generate
geometric pseudo-labels, and a student that performs deep feature learning
under noisy supervision of the pseudo-labels. As a third contribution, we apply
SGP to two perception problems on large-scale real datasets, namely relative
camera pose estimation on MegaDepth and point cloud registration on 3DMatch. We
demonstrate that SGP achieves state-of-the-art performance that is on-par or
superior to the supervised oracles trained using ground-truth labels.
- Abstract(参考訳): SGP(Self-supervised Geometric Recognition)は、地上真正の幾何学モデルラベル(例えば、カメラポーズ、リジッド変換)なしでマッチングする機能記述子を学習する最初の一般的なフレームワークである。
私たちの最初の貢献は、特徴ディスクリプタと幾何モデル(例えば画像、点雲)を共同で最適化する最適化問題として幾何学的知覚を定式化することです。
この最適化定式化の下では、視覚における2つの重要な研究の流れ、すなわち頑健なモデルフィッティングと深い特徴学習が、他のブロックを固定しながら未知変数の1ブロックを最適化することに対応することを示す。
この分析は自然に、共同最適化を解決するために交互最小化を実行するSGPアルゴリズムの2番目の貢献につながります。
SGPは、2つのメタアルゴリズムを反復的に実行する: 与えられた学習特徴を頑健なモデルフィッティングして幾何学的擬似ラベルを生成する教師と、擬似ラベルのうるさい監督の下で深い特徴学習を行う学生である。
第3の貢献として,GeoDepthの相対カメラポーズ推定と3DMatchのポイントクラウド登録という,大規模実データに対する2つの認識問題にSGPを適用している。
本研究は,SGPが地上トラスラベルを用いて訓練した教師付きオークルよりも同等あるいは優れる最先端性能を達成できることを実証する。
関連論文リスト
- Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。
本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。
この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-08-28T12:33:26Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Ollivier-Ricci Curvature For Head Pose Estimation From a Single Image [10.842428621768667]
本稿では,ネットワーク曲率の概念を適用し,単一の画像から頭部ポーズを推定することを目的とする。
本研究では、XGBoost回帰モデルへの入力として重み付きグラフ上のOllivier-Ricci曲率(ORC)の幾何学的概念を用いて、ORCの固有幾何学的基礎が自然なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-04-27T15:20:26Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。