論文の概要: LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching
- arxiv url: http://arxiv.org/abs/2311.17571v1
- Date: Wed, 29 Nov 2023 12:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:31:52.770606
- Title: LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching
- Title(参考訳): LGFCTR:画像マッチングのためのローカルおよびグローバルな特徴畳み込み変換器
- Authors: Wenhao Zhong and Jie Jiang
- Abstract要約: 局所的文脈とグローバル構造の両方を捉えるために,新しい畳み込み変換器を提案する。
普遍的なFPNライクなフレームワークは、トランスフォーマーによるクロスデコーダと同様に、自己エンコーダ内のグローバル構造をキャプチャする。
新たなレグレッションベースのサブピクセルリファインメントモジュールは、微粒なウィンドウ特徴を微粒な位置ずれレグレッションに活用する。
- 参考スコア(独自算出の注目度): 8.503217766507584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image matching that finding robust and accurate correspondences across images
is a challenging task under extreme conditions. Capturing local and global
features simultaneously is an important way to mitigate such an issue but
recent transformer-based decoders were still stuck in the issues that CNN-based
encoders only extract local features and the transformers lack locality.
Inspired by the locality and implicit positional encoding of convolutions, a
novel convolutional transformer is proposed to capture both local contexts and
global structures more sufficiently for detector-free matching. Firstly, a
universal FPN-like framework captures global structures in self-encoder as well
as cross-decoder by transformers and compensates local contexts as well as
implicit positional encoding by convolutions. Secondly, a novel convolutional
transformer module explores multi-scale long range dependencies by a novel
multi-scale attention and further aggregates local information inside
dependencies for enhancing locality. Finally, a novel regression-based
sub-pixel refinement module exploits the whole fine-grained window features for
fine-level positional deviation regression. The proposed method achieves
superior performances on a wide range of benchmarks. The code will be available
on https://github.com/zwh0527/LGFCTR.
- Abstract(参考訳): 画像間の堅牢で正確な対応を見つけることは、極端な条件下での課題である。
しかし、最近のトランスフォーマーベースのデコーダは、CNNベースのエンコーダがローカル機能のみを抽出し、トランスフォーマーがローカリティを欠いている問題にまだ立ち往生している。
畳み込みの局所性と暗黙的な位置符号化にインスパイアされた新しい畳み込み変換器が提案され、局所的文脈とグローバル構造の両方を検知不要なマッチングに十分な精度で捉えることができる。
まず、ユニバーサルなfpnライクなフレームワークは、自己エンコーダのグローバル構造とトランスフォーマーによるクロスデコーダをキャプチャし、畳み込みによる暗黙的な位置符号化とローカルコンテキストを補償する。
第二に,新しい畳み込みトランスモジュールは,新しいマルチスケールの注意によって,多スケールの長距離依存性を探索し,さらに局所性を高めるために,依存関係内の局所情報を集約する。
最後に、新しいレグレッションベースのサブピクセルリファインメントモジュールは、微細な位置ずれのレグレッションのために、きめ細かなウィンドウ特徴をすべて活用する。
提案手法は,幅広いベンチマークにおいて優れた性能を示す。
コードはhttps://github.com/zwh0527/LGFCTRで入手できる。
関連論文リスト
- Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection [2.0999222360659604]
表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
DefTはCNNとTransformerを統一モデルに組み込んで、局所的および非局所的関係を協調的にキャプチャする。
3つのデータセットの実験は、他のCNNやトランスフォーマーベースのネットワークと比較して、我々の手法の優位性と効率性を実証している。
論文 参考訳(メタデータ) (2022-07-17T23:37:48Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net [19.21709807149165]
既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-08-17T19:45:28Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。