論文の概要: FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer
- arxiv url: http://arxiv.org/abs/2310.13605v1
- Date: Fri, 20 Oct 2023 15:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:05:12.279536
- Title: FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer
- Title(参考訳): FMRT:Reconciliatory Transformerによる正確な特徴マッチング学習
- Authors: Xinyu Zhang, Li Wang, Zhiqiang Jiang, Kun Dai, Tao Xie, Lei Yang,
Wenhao Yu, Yang Shen, Jun Li
- Abstract要約: 本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 29.95553680263075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local Feature Matching, an essential component of several computer vision
tasks (e.g., structure from motion and visual localization), has been
effectively settled by Transformer-based methods. However, these methods only
integrate long-range context information among keypoints with a fixed receptive
field, which constrains the network from reconciling the importance of features
with different receptive fields to realize complete image perception, hence
limiting the matching accuracy. In addition, these methods utilize a
conventional handcrafted encoding approach to integrate the positional
information of keypoints into the visual descriptors, which limits the
capability of the network to extract reliable positional encoding message. In
this study, we propose Feature Matching with Reconciliatory Transformer (FMRT),
a novel Transformer-based detector-free method that reconciles different
features with multiple receptive fields adaptively and utilizes parallel
networks to realize reliable positional encoding. Specifically, FMRT proposes a
dedicated Reconciliatory Transformer (RecFormer) that consists of a Global
Perception Attention Layer (GPAL) to extract visual descriptors with different
receptive fields and integrate global context information under various scales,
Perception Weight Layer (PWL) to measure the importance of various receptive
fields adaptively, and Local Perception Feed-forward Network (LPFFN) to extract
deep aggregated multi-scale local feature representation. Extensive experiments
demonstrate that FMRT yields extraordinary performance on multiple benchmarks,
including pose estimation, visual localization, homography estimation, and
image matching.
- Abstract(参考訳): 局所的特徴マッチングは、複数のコンピュータビジョンタスク(例えば、動きからの構造や視覚の局所化)において不可欠なコンポーネントであり、トランスフォーマティブベースの手法によって効果的に解決されている。
しかし、これらの手法はキーポイント間の長距離コンテキスト情報のみを固定受容野と統合し、異なる受容野による特徴の重要性の調整を制約し、完全な画像認識を実現するため、マッチング精度が制限される。
さらに、従来の手作りエンコーディング手法を用いて、キーポイントの位置情報をビジュアル記述子に統合し、信頼性の高い位置エンコーディングメッセージを抽出するネットワークの能力を制限する。
本研究では,複数の受容場と異なる特徴を適応的に照合し,並列ネットワークを用いて信頼性の高い位置符号化を実現するFMRT(Feature Matching with Reconciliatory Transformer)を提案する。
具体的には、異なる受容領域を持つ視覚記述子を抽出し、様々なスケールでグローバルコンテキスト情報を統合するためのGPAL(Global Perception Attention Layer)と、様々な受容領域の重要性を適応的に測定するPWL(Perception Weight Layer)と、深い集約された局所特徴表現を抽出するローカル知覚フィードフォワードネットワーク(LPFFN)からなる専用のReconciliatory Transformer(RecFormer)を提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで異常な性能を示す。
関連論文リスト
- RADA: Robust and Accurate Feature Learning with Domain Adaptation [7.905594146253435]
本稿では、2つの重要な要素を組み込んだ多層機能集約ネットワークを導入し、堅牢で正確な特徴の学習を容易にする。
提案手法は,画像マッチング,カメラポーズ推定,視覚的ローカライゼーションタスクにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-07-22T16:49:58Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Multimodality Biomedical Image Registration using Free Point Transformer
Networks [0.37501702548174964]
本稿では,新しい自由点変換器(FPT)ネットワークに基づく点集合登録アルゴリズムについて述べる。
FPTは、大域的特徴抽出器で構築され、未順序のソースと可変サイズのターゲットポイントセットを受け入れる。
前立腺MRIとスパース取得超音波画像を用いたマルチモーダル登録タスクにおいて、FPTは同等または改善された結果を得る。
論文 参考訳(メタデータ) (2020-08-05T00:13:04Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。