論文の概要: REMM:Rotation-Equivariant Framework for End-to-End Multimodal Image Matching
- arxiv url: http://arxiv.org/abs/2407.11637v1
- Date: Tue, 16 Jul 2024 11:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:11:54.889898
- Title: REMM:Rotation-Equivariant Framework for End-to-End Multimodal Image Matching
- Title(参考訳): REMM:End-to-End Multimodal Image Matchingのための回転同変フレームワーク
- Authors: Han Nie, Bin Luo, Jun Liu, Zhitao Fu, Weixing Liu, Xin Su,
- Abstract要約: 我々は、エンドツーエンドのマルチモーダル画像マッチングのための回転同変フレームワークREMMを提案する。
本手法は,一致するパイプライン全体における記述子の回転差を完全にエンコードする。
- 参考スコア(独自算出の注目度): 10.046034531635271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present REMM, a rotation-equivariant framework for end-to-end multimodal image matching, which fully encodes rotational differences of descriptors in the whole matching pipeline. Previous learning-based methods mainly focus on extracting modal-invariant descriptors, while consistently ignoring the rotational invariance. In this paper, we demonstrate that our REMM is very useful for multimodal image matching, including multimodal feature learning module and cyclic shift module. We first learn modal-invariant features through the multimodal feature learning module. Then, we design the cyclic shift module to rotationally encode the descriptors, greatly improving the performance of rotation-equivariant matching, which makes them robust to any angle. To validate our method, we establish a comprehensive rotation and scale-matching benchmark for evaluating the anti-rotation performance of multimodal images, which contains a combination of multi-angle and multi-scale transformations from four publicly available datasets. Extensive experiments show that our method outperforms existing methods in benchmarking and generalizes well to independent datasets. Additionally, we conducted an in-depth analysis of the key components of the REMM to validate the improvements brought about by the cyclic shift module. Code and dataset at https://github.com/HanNieWHU/REMM.
- Abstract(参考訳): 提案するREMMは、エンドツーエンドのマルチモーダル画像マッチングのための回転不変フレームワークであり、マッチングパイプライン全体のディスクリプタの回転差を完全にエンコードする。
従来の学習に基づく手法は主にモーダル不変な記述子を抽出することに焦点を当て、回転不変性を一貫して無視していた。
本稿では,REMMがマルチモーダル特徴学習モジュールや循環シフトモジュールなどのマルチモーダル画像マッチングに非常に有用であることを示す。
まず、マルチモーダルな特徴学習モジュールを通してモーダル不変の特徴を学習する。
そして, 循環シフトモジュールを設計して, ディスクリプタを回転的に符号化し, 回転同変マッチングの性能を大幅に向上し, 任意の角度で頑健になる。
提案手法を検証するため,4つの公開データセットからのマルチアングル変換とマルチスケール変換を組み合わせたマルチモーダル画像の反ローテーション性能を評価するための総合的なローテーション・スケールマッチングベンチマークを構築した。
大規模な実験により,本手法は既存のベンチマーク手法よりも優れ,独立したデータセットによく当てはまることが示された。
さらに、循環シフトモジュールによる改善を検証するため、REMMのキーコンポーネントの詳細な分析を行った。
コードとデータセットはhttps://github.com/HanNieWHU/REMM。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Deep Neural Networks with Efficient Guaranteed Invariances [77.99182201815763]
我々は、性能改善の問題、特にディープニューラルネットワークのサンプル複雑性に対処する。
群同変畳み込みは同変表現を得るための一般的なアプローチである。
本稿では,各ストリームが異なる変換に不変なマルチストリームアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-02T20:44:45Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - MultiRes-NetVLAD: Augmenting Place Recognition Training with
Low-Resolution Imagery [28.875236694573815]
我々は低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化した。
結果として得られる多重解像度特徴ピラミッドは、VLADを介して1つのコンパクト表現に便利に集約することができる。
基礎となる学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:53:01Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。