論文の概要: Co-Attention for Conditioned Image Matching
- arxiv url: http://arxiv.org/abs/2007.08480v2
- Date: Fri, 26 Mar 2021 17:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:33:50.618722
- Title: Co-Attention for Conditioned Image Matching
- Title(参考訳): 条件付き画像マッチングのためのコアテンション
- Authors: Olivia Wiles, Sebastien Ehrhardt, Andrew Zisserman
- Abstract要約: 照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
- 参考スコア(独自算出の注目度): 91.43244337264454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new approach to determine correspondences between image pairs in
the wild under large changes in illumination, viewpoint, context, and material.
While other approaches find correspondences between pairs of images by treating
the images independently, we instead condition on both images to implicitly
take account of the differences between them. To achieve this, we introduce (i)
a spatial attention mechanism (a co-attention module, CoAM) for conditioning
the learned features on both images, and (ii) a distinctiveness score used to
choose the best matches at test time. CoAM can be added to standard
architectures and trained using self-supervision or supervised data, and
achieves a significant performance improvement under hard conditions, e.g.
large viewpoint changes. We demonstrate that models using CoAM achieve state of
the art or competitive results on a wide range of tasks: local matching, camera
localization, 3D reconstruction, and image stylization.
- Abstract(参考訳): 照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、画像を独立して扱うことで画像のペア間の対応を見出すが、その代わりに両方の画像にその違いを暗黙的に考慮するよう条件づける。
これを達成するために
一 両方の画像に学習した特徴を調和させる空間的注意機構(コアテンションモジュール、CoAM)
(ii)テスト時にベストマッチを選択する際に用いる特異性スコア。
CoAMは、標準アーキテクチャに追加され、セルフスーパービジョンまたは教師付きデータを使用して訓練され、例えば大きな視点の変化のような厳しい条件下での大幅なパフォーマンス向上を達成する。
我々は,CoAMを用いたモデルが,局所マッチング,カメラローカライゼーション,3次元再構成,画像スタイリングなど,幅広いタスクにおいて,技術や競争結果の状態を達成できることを実証した。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Scene-Aware Feature Matching [13.014369025829598]
本稿では,Scene-Aware機能マッチングのガイドに注目グループ化を適用したSAMという新しいモデルを提案する。
センスアウェアなグループ化ガイダンスでは、SAMは従来の特徴マッチングモデルよりも正確で堅牢であり、解釈性も高い。
論文 参考訳(メタデータ) (2023-08-19T08:56:35Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。