論文の概要: LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation
- arxiv url: http://arxiv.org/abs/2106.04067v1
- Date: Tue, 8 Jun 2021 02:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-09 15:58:02.820897
- Title: LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation
- Title(参考訳): localtrans:クロスレゾリューションホモグラフィ推定のためのマルチスケールローカルトランスフォーマーネットワーク
- Authors: Ruizhi Shao, Gaochang Wu, Yuemei Zhou, Ying Fu, Lu Fang, Yebin Liu
- Abstract要約: クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
- 参考スコア(独自算出の注目度): 52.63874513999119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-resolution image alignment is a key problem in multiscale gigapixel
photography, which requires to estimate homography matrix using images with
large resolution gap. Existing deep homography methods concatenate the input
images or features, neglecting the explicit formulation of correspondences
between them, which leads to degraded accuracy in cross-resolution challenges.
In this paper, we consider the cross-resolution homography estimation as a
multimodal problem, and propose a local transformer network embedded within a
multiscale structure to explicitly learn correspondences between the multimodal
inputs, namely, input images with different resolutions. The proposed local
transformer adopts a local attention map specifically for each position in the
feature. By combining the local transformer with the multiscale structure, the
network is able to capture long-short range correspondences efficiently and
accurately. Experiments on both the MS-COCO dataset and the real-captured
cross-resolution dataset show that the proposed network outperforms existing
state-of-the-art feature-based and deep-learning-based homography estimation
methods, and is able to accurately align images under $10\times$ resolution
gap.
- Abstract(参考訳): クロスレゾリューション画像アライメントは、解像度ギャップが大きい画像を用いてホモグラフィ行列を推定する必要があるマルチスケールギガピクセル撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は入力画像や特徴を結合し、それら間の対応の明示的な定式化を無視する。
本稿では、クロスレゾリューションのホモグラフィー推定をマルチモーダル問題とみなし、マルチモーダル入力、すなわち異なる解像度の入力画像間の対応を明示的に学習するマルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
提案する局所変圧器は,特徴のそれぞれの位置に対して局所的注意マップを採用する。
ローカルトランスとマルチスケール構造を組み合わせることで、ネットワークは長距離対応を効率的かつ正確に捉えることができる。
ms-cocoデータセットとリアルタイムのクロスレゾリューションデータセットの両方の実験により、提案されたネットワークは、既存の最先端の機能ベースおよびディープラーニングに基づくホモグラフィ推定方法よりも優れており、10\times$の解像度ギャップの下で正確に画像をアライメントすることができる。
関連論文リスト
- Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Continuous Cross-resolution Remote Sensing Image Change Detection [28.466756872079472]
実世界のアプリケーションは、空間解像度の異なるバイテンポラルイメージに基づいて、クロスレゾリューション変化検出(別名、CD)の必要性を高める。
本研究では,様々な解像度差の合成サンプルから得られたHR結果を連続的に予測するモデルを実現するために,スケール不変学習を提案する。
提案手法は,3つのデータセット上で,いくつかのバニラCD法と2つのクロスレゾリューションCD法より有意に優れていた。
論文 参考訳(メタデータ) (2023-05-24T04:57:24Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Fusformer: A Transformer-based Fusion Approach for Hyperspectral Image
Super-resolution [9.022005574190182]
低分解能ハイパースペクトル像と高分解能マルチスペクトル像を融合させるトランスフォーマーに基づくネットワークを設計する。
LR-HSIは主スペクトル構造を持つため、ネットワークは空間的詳細推定に重点を置いている。
様々な実験と品質指標は、他の最先端手法と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2021-09-05T14:00:34Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Multimodal Deep Unfolding for Guided Image Super-Resolution [23.48305854574444]
ディープラーニング手法は、低解像度の入力から高解像度の出力へのエンドツーエンドのマッピングを学習するために、トレーニングデータに依存する。
本稿では,スパース事前を組み込んだマルチモーダル深層学習設計を提案し,他の画像モダリティからの情報をネットワークアーキテクチャに効果的に統合する。
提案手法は,サイド情報を用いた畳み込みスパース符号化の反復的アルゴリズムに類似した,新しい展開演算子に依存している。
論文 参考訳(メタデータ) (2020-01-21T14:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。