論文の概要: VSFormer: Visual-Spatial Fusion Transformer for Correspondence Pruning
- arxiv url: http://arxiv.org/abs/2312.08774v3
- Date: Thu, 4 Jan 2024 06:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:55:17.634902
- Title: VSFormer: Visual-Spatial Fusion Transformer for Correspondence Pruning
- Title(参考訳): VSFormer: 対応処理のためのVisual-Spatial Fusion Transformer
- Authors: Tangfei Liao, Xiaoqin Zhang, Li Zhao, Tao Wang, Guobao Xiao
- Abstract要約: 対応プルーニング(英: Cor correspondence pruning)は、初期セットの仮定対応から正しい一致(不整合)を見つけることを目的としている。
Inlier を同定し,カメラのポーズを正確に復元する Visual-Spatial Fusion Transformer (VSFormer) を提案する。
- 参考スコア(独自算出の注目度): 22.0082111649259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correspondence pruning aims to find correct matches (inliers) from an initial
set of putative correspondences, which is a fundamental task for many
applications. The process of finding is challenging, given the varying inlier
ratios between scenes/image pairs due to significant visual differences.
However, the performance of the existing methods is usually limited by the
problem of lacking visual cues (\eg texture, illumination, structure) of
scenes. In this paper, we propose a Visual-Spatial Fusion Transformer
(VSFormer) to identify inliers and recover camera poses accurately. Firstly, we
obtain highly abstract visual cues of a scene with the cross attention between
local features of two-view images. Then, we model these visual cues and
correspondences by a joint visual-spatial fusion module, simultaneously
embedding visual cues into correspondences for pruning. Additionally, to mine
the consistency of correspondences, we also design a novel module that combines
the KNN-based graph and the transformer, effectively capturing both local and
global contexts. Extensive experiments have demonstrated that the proposed
VSFormer outperforms state-of-the-art methods on outdoor and indoor benchmarks.
Our code is provided at the following repository:
https://github.com/sugar-fly/VSFormer.
- Abstract(参考訳): 対応プルーニングは、多くのアプリケーションで基本的なタスクである最初の対応セットから正しい一致(インリアー)を見つけることを目的としている。
視覚的差異が大きいため、シーン/イメージペア間の不整合比が異なるため、発見のプロセスは困難である。
しかし、既存の手法の性能は通常、シーンの視覚的な手がかり(例えばテクスチャ、照明、構造)の欠如によって制限される。
本稿では,不整点を識別し,カメラのポーズを正確に復元するVisual-Spatial Fusion Transformer (VSFormer)を提案する。
まず,二視点画像の局所的特徴の相互に注意を向け,高度に抽象的なシーンの視覚手がかりを得る。
次に,これらの視覚手がかりと対応を視覚空間融合モジュールでモデル化し,同時に視覚手がかりをプルーニング用対応に組み込む。
さらに、対応の整合性を検討するために、KNNグラフと変換器を組み合わせた新しいモジュールを設計し、ローカルおよびグローバル両方のコンテキストを効果的にキャプチャする。
広範な実験により、vsformerは屋外および屋内ベンチマークにおいて最先端の手法よりも優れていることが示されている。
私たちのコードは以下のリポジトリで提供されています。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Few-shot Visual Relationship Co-localization [1.4130726713527195]
画像の袋に共通だが潜在的な述語を含む画像が与えられた場合、各画像の共通述語を介して接続された視覚的対象物対の局在化に興味がある。
バッグの各画像に共通する視覚的関係を選択するための最適化フレームワークを提案する。
2つの挑戦的な公開データセットから得られたバッグサイズの変化について,提案手法を広範囲に評価した。
論文 参考訳(メタデータ) (2021-08-26T07:19:57Z) - Patch2Pix: Epipolar-Guided Pixel-Level Correspondences [38.38520763114715]
Patch2Pixは,これらの提案によって定義された局所領域から画素レベルのマッチングを回帰することで,提案手法を洗練する新しい改良ネットワークである。
改良ネットワークは画像マッチング, ホモグラフィー推定, ローカライゼーションタスクにおいて, 対応ネットワークの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-12-03T13:44:02Z) - Devil's in the Details: Aligning Visual Clues for Conditional Embedding
in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。
CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-11T06:28:56Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。