論文の概要: PMatch: Paired Masked Image Modeling for Dense Geometric Matching
- arxiv url: http://arxiv.org/abs/2303.17342v1
- Date: Thu, 30 Mar 2023 12:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:28:46.205070
- Title: PMatch: Paired Masked Image Modeling for Dense Geometric Matching
- Title(参考訳): pmatch: 密度幾何マッチングのためのペアマスク画像モデリング
- Authors: Shengjie Zhu, Xiaoming Liu
- Abstract要約: 幾何マッチングのための新しいクロスフレームグローバルマッチングモジュール(CFGM)を提案する。
テクスチャレス領域に頑健であるためには,その学習をより規則化するホモグラフィー損失を提案する。
幾何マッチングにおいて、SoTA(State-of-The-Art)の性能を実現する。
- 参考スコア(独自算出の注目度): 18.64065915021511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense geometric matching determines the dense pixel-wise correspondence
between a source and support image corresponding to the same 3D structure.
Prior works employ an encoder of transformer blocks to correlate the two-frame
features. However, existing monocular pretraining tasks, e.g., image
classification, and masked image modeling (MIM), can not pretrain the
cross-frame module, yielding less optimal performance. To resolve this, we
reformulate the MIM from reconstructing a single masked image to reconstructing
a pair of masked images, enabling the pretraining of transformer module.
Additionally, we incorporate a decoder into pretraining for improved upsampling
results. Further, to be robust to the textureless area, we propose a novel
cross-frame global matching module (CFGM). Since the most textureless area is
planar surfaces, we propose a homography loss to further regularize its
learning. Combined together, we achieve the State-of-The-Art (SoTA) performance
on geometric matching. Codes and models are available at
https://github.com/ShngJZ/PMatch.
- Abstract(参考訳): デンス幾何マッチングは、ソースと同一の3D構造に対応する支持画像との高密度画素対応を決定する。
以前の作業では、2フレームの特徴を相関付けるためにトランスフォーマーブロックのエンコーダを使用していた。
しかし、既存のモノクロプリトレーニングタスク、例えば画像分類やマスク画像モデリング(mim)は、クロスフレームモジュールをプリトレーニングできないため、最適性能は低下する。
そこで我々は,MIMを1枚のマスク付き画像の再構成から1枚のマスク付き画像の再構成へと再構成し,トランスフォーマーモジュールの事前訓練を可能にする。
さらに,プレトレーニングにデコーダを組み込んで,アップサンプリング結果を改善する。
さらに, テクスチャレス領域に対して堅牢となるために, 新たなクロスフレームグローバルマッチングモジュール (CFGM) を提案する。
最もテクスチャのない領域は平面面であるため、学習をより規則化するホモグラフィー損失を提案する。
組み合わせることで,幾何マッチングにおけるSoTA(State-of-The-Art)の性能を実現する。
コードとモデルはhttps://github.com/shngjz/pmatch.comで入手できる。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - 3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets [34.610546020800236]
3DMinerは、挑戦的なデータセットから3D形状をマイニングするためのパイプラインである。
本手法は最先端の教師なし3次元再構成技術よりもはるかに優れた結果が得られる。
LAION-5Bデータセットから得られる画像の形状を再構成することにより,3DMinerを組込みデータに適用する方法を示す。
論文 参考訳(メタデータ) (2023-10-29T23:08:19Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Learning Accurate Template Matching with Differentiable Coarse-to-Fine
Correspondence Refinement [28.00275083733545]
本稿では, 精度の高いテンプレートマッチング手法を提案する。
変圧器によって提供される新規な構造認識情報に基づいて、粗い対応を用いて初期ワープを推定する。
提案手法は最先端の手法やベースラインよりも大幅に優れており,実データにおいても,優れた一般化能力と視覚的検証が可能な結果が得られる。
論文 参考訳(メタデータ) (2023-03-15T08:24:10Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。