論文の概要: A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins
Objective
- arxiv url: http://arxiv.org/abs/2211.10963v1
- Date: Sun, 20 Nov 2022 12:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:26:05.898560
- Title: A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins
Objective
- Title(参考訳): Barlow Twins Objective を用いた軽量ドメイン適応絶対値回帰器
- Authors: Praveen Kumar Rajendran, Quoc-Vinh Lai-Dang, Luiz Felipe Vecchietti,
Dongsoo Har
- Abstract要約: 本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。
提案フレームワークでは,並列ブランチの訓練に生成手法を用いて,シーンイメージを異なる領域に拡張する。
その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れています。
- 参考スコア(独自算出の注目度): 0.6193838300896449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the camera pose for a given image is a challenging problem with
applications in robotics, autonomous vehicles, and augmented/virtual reality.
Lately, learning-based methods have shown to be effective for absolute camera
pose estimation. However, these methods are not accurate when generalizing to
different domains. In this paper, a domain adaptive training framework for
absolute pose regression is introduced. In the proposed framework, the scene
image is augmented for different domains by using generative methods to train
parallel branches using Barlow Twins objective. The parallel branches leverage
a lightweight CNN-based absolute pose regressor architecture. Further, the
efficacy of incorporating spatial and channel-wise attention in the regression
head for rotation prediction is investigated. Our method is evaluated with two
datasets, Cambridge landmarks and 7Scenes. The results demonstrate that, even
with using roughly 24 times fewer FLOPs, 12 times fewer activations, and 5
times fewer parameters than MS-Transformer, our approach outperforms all the
CNN-based architectures and achieves performance comparable to
transformer-based architectures. Our method ranks 2nd and 4th with the
Cambridge Landmarks and 7Scenes datasets, respectively. In addition, for
augmented domains not encountered during training, our approach significantly
outperforms the MS-transformer. Furthermore, it is shown that our domain
adaptive framework achieves better performance than the single branch model
trained with the identical CNN backbone with all instances of the unseen
distribution.
- Abstract(参考訳): 特定の画像に対するカメラのポーズを特定することは、ロボティクス、自律走行車、拡張現実/バーチャルリアリティーの応用において難しい問題である。
近年,学習に基づく手法は絶対的なカメラポーズ推定に有効であることが示されている。
しかし、これらの手法は異なる領域に一般化しても正確ではない。
本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。
提案フレームワークでは,Barlow Twins目標を用いた並列ブランチの訓練に生成手法を用いることで,シーンイメージを異なる領域に拡張する。
並列ブランチは軽量なCNNベースの絶対ポーズ回帰アーキテクチャを利用する。
さらに、回転予測のための回帰ヘッドに空間的およびチャネル的注意を組み込むことの有効性を検討した。
本手法はケンブリッジのランドマークと7シーンの2つのデータセットを用いて評価する。
その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れ、トランスフォーマーベースのアーキテクチャに匹敵する性能を実現していることがわかった。
本手法はケンブリッジランドマークと7Scenesのデータセットでそれぞれ2位と4位である。
また,トレーニング中に遭遇しない拡張ドメインに対しては,MS-transformerを著しく上回っている。
さらに、我々のドメイン適応フレームワークは、同一のCNNバックボーンでトレーニングされた単一ブランチモデルと、見当たらない分布のすべてのインスタンスよりも優れたパフォーマンスを実現する。
関連論文リスト
- LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency
Training [4.336877104987131]
教師なしドメイン適応はセマンティックセグメンテーションの有望なテクニックである。
対象領域整合性訓練の概念に基づく非監視領域適応のための新しいフレームワークを提案する。
私たちのアプローチはシンプルで、実装が簡単で、トレーニング時にメモリ効率が向上します。
論文 参考訳(メタデータ) (2021-05-17T19:36:28Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。