論文の概要: AbHE: All Attention-based Homography Estimation
- arxiv url: http://arxiv.org/abs/2212.03029v2
- Date: Wed, 7 Dec 2022 02:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:07:37.893911
- Title: AbHE: All Attention-based Homography Estimation
- Title(参考訳): AbHE: あらゆる注意に基づくホログラフィー推定
- Authors: Mingxiao Huo, Zhihao Zhang, Xianqiang Yang
- Abstract要約: 本研究では,局所的な特徴を持つ畳み込みニューラルネットワークとグローバルな特徴を持つトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。
ホモグラフィ回帰段階では、相関ボリュームのチャネルに注意層を導入し、いくつかの弱い相関特徴点を排除できる。
実験の結果,8自由度(DOF)ホモグラフィーでは,我々の手法が最先端の手法をオーバーパフォーマンスすることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Homography estimation is a basic computer vision task, which aims to obtain
the transformation from multi-view images for image alignment. Unsupervised
learning homography estimation trains a convolution neural network for feature
extraction and transformation matrix regression. While the state-of-theart
homography method is based on convolution neural networks, few work focuses on
transformer which shows superiority in highlevel vision tasks. In this paper,
we propose a strong-baseline model based on the Swin Transformer, which
combines convolution neural network for local features and transformer module
for global features. Moreover, a cross non-local layer is introduced to search
the matched features within the feature maps coarsely. In the homography
regression stage, we adopt an attention layer for the channels of correlation
volume, which can drop out some weak correlation feature points. The experiment
shows that in 8 Degree-of-Freedoms(DOFs) homography estimation our method
overperforms the state-of-the-art method.
- Abstract(参考訳): ホログラフィー推定は、画像アライメントのための多視点画像から変換を得るための基本的なコンピュータビジョンタスクである。
教師なし学習ホモグラフィ推定は、特徴抽出と変換行列回帰のための畳み込みニューラルネットワークを訓練する。
最先端のホモグラフィ法は畳み込みニューラルネットワークに基づいているが、高レベルの視覚タスクにおいて優位性を示すトランスフォーマーに焦点を当てた研究はほとんどない。
本稿では,局所的な特徴に対する畳み込みニューラルネットワークとグローバルな特徴のためのトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。
さらに、機能マップ内のマッチングされた特徴を粗く検索するために、クロス非ローカル層が導入される。
ホモグラフィ回帰段階では、相関ボリュームのチャネルに対して注意層を採用し、いくつかの弱い相関特徴点を排除できる。
実験により,自由度8自由度(dofs)ホモグラフィにおいて,本手法が最先端法を過大評価することを示した。
関連論文リスト
- Progressive Retinal Image Registration via Global and Local Deformable Transformations [49.032894312826244]
我々はHybridRetinaと呼ばれるハイブリッド登録フレームワークを提案する。
キーポイント検出器とGAMorphと呼ばれる変形ネットワークを用いて、大域的な変換と局所的な変形可能な変換を推定する。
FIREとFLoRI21という2つの広く使われているデータセットの実験により、提案したHybridRetinaは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-09-02T08:43:50Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Towards Hierarchical Regional Transformer-based Multiple Instance
Learning [2.16656895298847]
本稿では,従来の学習注意機構を,地域的な視覚変換装置にインスパイアされた自己認識機構に置き換える,トランスフォーマーに基づくマルチインスタンス学習手法を提案する。
本稿では,地域パッチ情報を融合してスライドレベルの予測を導出し,この地域アグリゲーションをどのように積み重ねて,異なる距離における特徴を階層的に処理するかを示す。
本手法は,2つの病理組織学的データセットのベースライン上での性能を著しく向上させることができ,今後の研究に向けての有望な方向に向かっている。
論文 参考訳(メタデータ) (2023-08-24T08:19:15Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Learning Local Implicit Fourier Representation for Image Warping [11.526109213908091]
画像ワーピング(LTEW)のための局所的テクスチャ推定器を提案し,次に暗黙のニューラル表現を用いて画像を連続的な形状に変形する。
我々のLTEWベースのニューラル関数は、非対称スケールSRとホモグラフィ変換の既存のワープ手法よりも優れています。
論文 参考訳(メタデータ) (2022-07-05T06:30:17Z) - Weakly-supervised fire segmentation by visualizing intermediate CNN
layers [82.75113406937194]
画像やビデオにおける火の局所化は、火災事故に対処するための自律システムにとって重要なステップである。
我々は,ネットワークのトレーニングに画像ラベルのみを使用する,画像中の火の弱い制御セグメント化について検討する。
CNNの中間層における特徴量の平均値は,2値セグメンテーション問題である火災セグメンテーションの場合,従来のクラスアクティベーションマッピング(CAM)法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-16T11:56:28Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Graph Neural Networks for UnsupervisedDomain Adaptation of
Histopathological ImageAnalytics [22.04114134677181]
組織像解析のための教師なし領域適応のための新しい手法を提案する。
特徴空間に画像を埋め込むバックボーンと、ラベルで画像の監視信号をプロパゲートするグラフニューラルネットワーク層に基づいている。
実験では、4つの公開データセット上での最先端のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-08-21T04:53:44Z) - Vanishing Point Detection with Direct and Transposed Fast Hough
Transform inside the neural network [0.0]
本稿では,画像中の点検出を解消するニューラルネットワークアーキテクチャを提案する。
鍵となる要素は、標準アクティベーション関数を持つ畳み込み層ブロックによって分離された直接変換されたFast Hough変換を使用することである。
論文 参考訳(メタデータ) (2020-02-04T09:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。