論文の概要: SCPNet: Unsupervised Cross-modal Homography Estimation via Intra-modal Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2407.08148v1
- Date: Thu, 11 Jul 2024 03:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 19:08:29.560399
- Title: SCPNet: Unsupervised Cross-modal Homography Estimation via Intra-modal Self-supervised Learning
- Title(参考訳): SCPNet: モーダル内自己教師型学習による教師なしクロスモーダルホログラフィー推定
- Authors: Runmin Zhang, Jun Ma, Si-Yuan Cao, Lun Luo, Beinan Yu, Shu-Jie Chen, Junwei Li, Hui-Liang Shen,
- Abstract要約: 本研究では、モダル内自己教師付き学習、相関、一貫した特徴マップ、すなわちSCPNetに基づく教師なしクロスモーダルホモグラフィー推定フレームワークを提案する。
SCPNetは、128x128画像上の[-32,+32]オフセットの下で、衛星マップ画像ペアのクロスモーダルデータセットであるGoogleMap上で、効果的な教師なしホモグラフィー推定を初めて達成した。
- 参考スコア(独自算出の注目度): 11.023214364574795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel unsupervised cross-modal homography estimation framework based on intra-modal Self-supervised learning, Correlation, and consistent feature map Projection, namely SCPNet. The concept of intra-modal self-supervised learning is first presented to facilitate the unsupervised cross-modal homography estimation. The correlation-based homography estimation network and the consistent feature map projection are combined to form the learnable architecture of SCPNet, boosting the unsupervised learning framework. SCPNet is the first to achieve effective unsupervised homography estimation on the satellite-map image pair cross-modal dataset, GoogleMap, under [-32,+32] offset on a 128x128 image, leading the supervised approach MHN by 14.0% of mean average corner error (MACE). We further conduct extensive experiments on several cross-modal/spectral and manually-made inconsistent datasets, on which SCPNet achieves the state-of-the-art (SOTA) performance among unsupervised approaches, and owns 49.0%, 25.2%, 36.4%, and 10.7% lower MACEs than the supervised approach MHN. Source code is available at https://github.com/RM-Zhang/SCPNet.
- Abstract(参考訳): 本研究では、モダル内自己教師付き学習、相関、一貫した特徴マップ、すなわちSCPNetに基づく教師なしクロスモーダルホモグラフィー推定フレームワークを提案する。
モーダル内自己教師あり学習の概念は、教師なしのモーダル・ホモグラフィー推定を容易にするために最初に提示される。
相関に基づくホモグラフィ推定ネットワークと一貫した特徴マップ投影を組み合わせ、SCPNetの学習可能なアーキテクチャを形成し、教師なし学習フレームワークを強化した。
SCPNetは、128x128画像上の[-32,+32]オフセットの下で、衛星マップのクロスモーダルデータセットであるGoogleMap上で、効果的な教師なしホモグラフィー推定を初めて達成し、平均コーナーエラー(MACE)の平均14.0%の教師付きアプローチであるMHNを導いた。
さらに、SCPNetが教師なしアプローチの中で最先端(SOTA)のパフォーマンスを達成し、49.0%、25.2%、36.4%、および10.7%のMACEを保有する、クロスモーダル/スペクトルおよび手動不整合データセットについて広範な実験を行った。
ソースコードはhttps://github.com/RM-Zhang/SCPNetで入手できる。
関連論文リスト
- Self-supervised co-salient object detection via feature correspondence at multiple scales [27.664016341526988]
本稿では,画像群における2段階の自己教師型手法を用いて,セグメンテーションアノテーションを必要とせず,共起性有色物体(CoSOD)を検出する手法を提案する。
我々は、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。
3つのCoSODベンチマークデータセットの実験では、我々のモデルは、対応する最先端モデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2024-03-17T06:21:21Z) - LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization [0.9562145896371785]
本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
論文 参考訳(メタデータ) (2023-12-27T17:23:57Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - 3D Human Action Representation Learning via Cross-View Consistency
Pursuit [52.19199260960558]
教師なし3次元骨格に基づく行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。
CrosSCLRは、シングルビューのコントラスト学習(SkeletonCLR)とクロスビューの一貫した知識マイニング(CVC-KM)モジュールの両方で構成されています。
論文 参考訳(メタデータ) (2021-04-29T16:29:41Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - A Lightweight Neural Network for Monocular View Generation with
Occlusion Handling [46.74874316127603]
1枚の画像からビュー合成を行うステレオデータペアに基づいて訓練された,非常に軽量なニューラルネットワークアーキテクチャを提案する。
この作業は、挑戦的なKITTIデータセットにおいて、視覚的および計量的に最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-24T15:29:01Z) - GMMLoc: Structure Consistent Visual Localization with Gaussian Mixture
Models [23.72910988500612]
ガウス混合モデル(GMM)によりモデル化された先行マップにおけるカメラ追跡手法を提案する。
ポーズを最初にフロントエンドで推定すると、局所的な視覚観測とマップコンポーネントは効率的に関連付けられる。
計算オーバーヘッドの少ないセンチメートルレベルのローカライズ精度を実現する方法を示す。
論文 参考訳(メタデータ) (2020-06-24T12:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。