論文の概要: Leveraging Equivariant Features for Absolute Pose Regression
- arxiv url: http://arxiv.org/abs/2204.02163v1
- Date: Tue, 5 Apr 2022 12:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:30:36.898363
- Title: Leveraging Equivariant Features for Absolute Pose Regression
- Title(参考訳): 絶対ポーズ回帰のための同変特徴の活用
- Authors: Mohamed Adel Musallam, Vincent Gaudilliere, Miguel Ortiz del Castillo,
Kassem Al Ismaeil, Djamila Aouada
- Abstract要約: 変換と回転の同変である畳み込みニューラルネットワークは,カメラの動きの表現を直接特徴空間に誘導することを示す。
次に、この幾何学的性質により、画像平面保存変換の全グループの下でトレーニングデータを暗黙的に増大させることができることを示す。
- 参考スコア(独自算出の注目度): 9.30597356471664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While end-to-end approaches have achieved state-of-the-art performance in
many perception tasks, they are not yet able to compete with 3D geometry-based
methods in pose estimation. Moreover, absolute pose regression has been shown
to be more related to image retrieval. As a result, we hypothesize that the
statistical features learned by classical Convolutional Neural Networks do not
carry enough geometric information to reliably solve this inherently geometric
task. In this paper, we demonstrate how a translation and rotation equivariant
Convolutional Neural Network directly induces representations of camera motions
into the feature space. We then show that this geometric property allows for
implicitly augmenting the training data under a whole group of image
plane-preserving transformations. Therefore, we argue that directly learning
equivariant features is preferable than learning data-intensive intermediate
representations. Comprehensive experimental validation demonstrates that our
lightweight model outperforms existing ones on standard datasets.
- Abstract(参考訳): エンド・ツー・エンドのアプローチは多くの知覚タスクにおいて最先端のパフォーマンスを達成したが、ポーズ推定において3次元幾何学に基づく手法と競合することはできなかった。
さらに、絶対ポーズ回帰は画像検索とより関係があることが示されている。
その結果、従来の畳み込みニューラルネットワークでは、この本質的に幾何学的な課題を確実に解くのに十分な幾何学的情報を持っていないという仮説を立てた。
本稿では,翻訳と回転の同変である畳み込みニューラルネットワークが,カメラの動きの表現を直接特徴空間に誘導することを示す。
次に,この幾何学的性質により,画像平面保存変換群全体のトレーニングデータを暗黙的に拡張できることを示す。
したがって、等価な特徴を直接学習することは、データ集約的な中間表現を学習するよりも望ましいと主張する。
総合的な実験的検証は、我々の軽量モデルが標準データセット上で既存のモデルより優れていることを示す。
関連論文リスト
- Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。
我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。
3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文 参考訳(メタデータ) (2024-10-08T06:48:01Z) - Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps [39.00415825387414]
そこで本研究では, 識別的特徴を3次元的理解で補う意味対応推定手法を提案する。
より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。
本研究では,SPair-71kデータセットを用いて,複数のオブジェクトカテゴリにまたがる対称なビューと繰り返し部分の区別が可能であることを実証した。
論文 参考訳(メタデータ) (2023-12-20T17:35:24Z) - Enhancing Surface Neural Implicits with Curvature-Guided Sampling and Uncertainty-Augmented Representations [37.42624848693373]
本研究では,高忠実度3次元再構成作業において,深度画像を直接消化する手法を提案する。
高効率なトレーニングデータを生成するため,簡単なサンプリング手法を提案する。
その単純さにもかかわらず、本手法は古典的および学習的ベースラインの両方に優れる。
論文 参考訳(メタデータ) (2023-06-03T12:23:17Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Revisiting Transformation Invariant Geometric Deep Learning: Are Initial
Representations All You Need? [80.86819657126041]
変換不変および距離保存初期表現は変換不変性を達成するのに十分であることを示す。
具体的には、多次元スケーリングを変更することで、変換不変かつ距離保存された初期点表現を実現する。
我々は、TinvNNが変換不変性を厳密に保証し、既存のニューラルネットワークと組み合わせられるほど汎用的で柔軟なことを証明した。
論文 参考訳(メタデータ) (2021-12-23T03:52:33Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Deformation Robust Roto-Scale-Translation Equivariant CNNs [10.44236628142169]
グループ同変畳み込みニューラルネットワーク(G-CNN)は,固有対称性を持つ一般化性能を著しく向上させる。
G-CNNの一般的な理論と実践的実装は、回転またはスケーリング変換の下での平面画像に対して研究されている。
論文 参考訳(メタデータ) (2021-11-22T03:58:24Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。