論文の概要: Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer
- arxiv url: http://arxiv.org/abs/2010.12796v1
- Date: Sat, 24 Oct 2020 06:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:29:35.242900
- Title: Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer
- Title(参考訳): ネットワークベース相対ポーズ回帰の一般化 : 正則化としての次元縮小
- Authors: Xiaqing Ding, Yue Wang, Li Tang, Yanmei Jiao and Rong Xiong
- Abstract要約: 最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
エンドツーエンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供する。
本稿では,絶対像特徴値からポーズ回帰解法を分離するために,ネットワーク内に学習可能なマッチング層を明示的に追加する。
我々はこの次元正規化戦略を2層ピラミッドベースのフレームワークで実装し、局所化結果を粗いものから細かいものへと回帰する。
- 参考スコア(独自算出の注目度): 16.63174637692875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization occupies an important position in many areas such as
Augmented Reality, robotics and 3D reconstruction. The state-of-the-art visual
localization methods perform pose estimation using geometry based solver within
the RANSAC framework. However, these methods require accurate pixel-level
matching at high image resolution, which is hard to satisfy under significant
changes from appearance, dynamics or perspective of view. End-to-end learning
based regression networks provide a solution to circumvent the requirement for
precise pixel-level correspondences, but demonstrate poor performance towards
cross-scene generalization. In this paper, we explicitly add a learnable
matching layer within the network to isolate the pose regression solver from
the absolute image feature values, and apply dimension regularization on both
the correlation feature channel and the image scale to further improve
performance towards generalization and large viewpoint change. We implement
this dimension regularization strategy within a two-layer pyramid based
framework to regress the localization results from coarse to fine. In addition,
the depth information is fused for absolute translational scale recovery.
Through experiments on real world RGBD datasets we validate the effectiveness
of our design in terms of improving both generalization performance and
robustness towards viewpoint change, and also show the potential of regression
based visual localization networks towards challenging occasions that are
difficult for geometry based visual localization methods.
- Abstract(参考訳): 視覚のローカライゼーションは、拡張現実、ロボティクス、および3dリコンストラクションなど、多くの分野で重要な位置を占めている。
最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
しかし、これらの方法は高解像度で正確なピクセルレベルのマッチングを必要とするため、外観、ダイナミックス、視野からの大きな変化では満足できない。
エンド・ツー・エンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供するが、クロスシーンの一般化に対する性能の低下を示す。
本稿では,絶対画像特徴量からポーズ回帰ソルバを分離するためにネットワーク内に学習可能なマッチング層を明示的に追加し,相関特徴量チャネルと画像スケールの両方に次元正規化を適用し,一般化と大きな視点変化へのパフォーマンス向上を図る。
この次元正規化戦略を2層ピラミッドベースのフレームワークで実装し,局所化結果を粗い値から細かい値に回帰する。
さらに、絶対翻訳スケール回復のために深度情報を融合する。
実世界のrgbdデータセットを用いた実験により, 一般化性能と視点変化に対するロバスト性の向上という観点で, 設計の有効性を検証するとともに, 幾何ベースのビジュアルローカライゼーション手法では難しい課題に対して, 回帰型ビジュアルローカライゼーションネットワークの可能性を示す。
関連論文リスト
- Space-Variant Total Variation boosted by learning techniques in few-view tomographic imaging [0.0]
本稿では,未決定の線形逆問題に対する空間変動正規化モデルの開発に焦点をあてる。
提案モデルの主な目的は,ディノベーションと細部・縁の保存のバランスを良くすることである。
畳み込みニューラルネットワークは、トレーニングにおいて弾性損失関数を用いて、基底真理像とその勾配を近似するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T08:58:41Z) - Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution [81.74583887661794]
整数と非整数のスケーリング要素を併用した,新しい実世界のスーパーレゾリューションベンチマークを構築した。
実世界の任意の超解像を解くために,Dual-level Deformable Implicit Representation (DDIR)を提案する。
実世界の任意の超解像のためのRealArbiSRおよびRealSRベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-16T13:44:42Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Deep Generalized Unfolding Networks for Image Restoration [16.943609020362395]
画像復元のためのDeep Generalized Unfolding Network (DGUNet)を提案する。
我々は、勾配推定戦略をPGDアルゴリズムの勾配降下ステップに統合する。
我々の手法は、最先端の性能、解釈可能性、一般化可能性の点で優れている。
論文 参考訳(メタデータ) (2022-04-28T08:39:39Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - Dual-Flow Transformation Network for Deformable Image Registration with
Region Consistency Constraint [95.30864269428808]
現在のディープラーニング(DL)ベースの画像登録アプローチは、畳み込みニューラルネットワークを利用して、ある画像から別の画像への空間変換を学習する。
一対のイメージ内のROIの類似性を最大化する領域整合性制約を持つ新しいデュアルフロー変換ネットワークを提案する。
4つの公開3次元MRIデータセットを用いた実験により,提案手法は精度と一般化において最高の登録性能が得られることを示した。
論文 参考訳(メタデータ) (2021-12-04T05:30:44Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - Deep Amended Gradient Descent for Efficient Spectral Reconstruction from
Single RGB Images [42.26124628784883]
本稿では、AGD-Netという、コンパクトで効率的でエンドツーエンドの学習ベースのフレームワークを提案する。
まず、古典的勾配降下アルゴリズムに基づいて問題を明示的に定式化する。
AGD-Netは、平均1.0dB以上のリコンストラクション品質を向上させることができる。
論文 参考訳(メタデータ) (2021-08-12T05:54:09Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。