論文の概要: COTR: Correspondence Transformer for Matching Across Images
- arxiv url: http://arxiv.org/abs/2103.14167v1
- Date: Thu, 25 Mar 2021 22:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:47:39.168354
- Title: COTR: Correspondence Transformer for Matching Across Images
- Title(参考訳): COTR:画像間のマッチングのための対応変換器
- Authors: Wei Jiang, Eduard Trulls, Jan Hosang, Andrea Tagliasacchi, Kwang Moo
Yi
- Abstract要約: 本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
- 参考スコア(独自算出の注目度): 31.995943755283786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for finding correspondences in images based on a
deep neural network that, given two images and a query point in one of them,
finds its correspondence in the other. By doing so, one has the option to query
only the points of interest and retrieve sparse correspondences, or to query
all points in an image and obtain dense mappings. Importantly, in order to
capture both local and global priors, and to let our model relate between image
regions using the most relevant among said priors, we realize our network using
a transformer. At inference time, we apply our correspondence network by
recursively zooming in around the estimates, yielding a multiscale pipeline
able to provide highly-accurate correspondences. Our method significantly
outperforms the state of the art on both sparse and dense correspondence
problems on multiple datasets and tasks, ranging from wide-baseline stereo to
optical flow, without any retraining for a specific dataset. We commit to
releasing data, code, and all the tools necessary to train from scratch and
ensure reproducibility.
- Abstract(参考訳): 本研究では,2つの画像と1つの問合せ点が与えられ,他方でその対応を見出す,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
重要なのは、ローカルとグローバルの両方のプリエントをキャプチャし、そのプリエントの中で最も関連性の高い画像領域間をモデルで関連付けるために、トランスフォーマを用いてネットワークを実現することである。
推定時に,推定値の周囲を再帰的にズームインし,高精度な対応性を提供できるマルチスケールパイプラインを生成する。
提案手法は,複数のデータセットやタスクにおいて,特定のデータセットに対する再トレーニングを伴わずに,広いベースラインステレオから光学的フローまで,スパースおよび密度の高い対応問題において,技術の現状を著しく上回る。
私たちは、スクラッチからトレーニングし再現性を確保するために必要なデータ、コード、およびすべてのツールをリリースすることを約束します。
関連論文リスト
- Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Correlation Verification for Image Retrieval [15.823918683848877]
相関検証ネットワーク (CVNet) という新しい画像検索手法を提案する。
CVNetは、様々な画像対から多様な幾何マッチングパターンを学習しながら、高密度特徴相関を画像類似性に圧縮する。
提案するネットワークは,有意なマージンを有する複数の検索ベンチマークにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2022-04-04T13:18:49Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Few-shot Segmentation with Optimal Transport Matching and Message Flow [50.9853556696858]
サポート情報を完全に活用するためには、少数ショットのセマンティックセマンティックセグメンテーションが不可欠である。
本稿では,最適輸送マッチングモジュールを備えた通信マッチングネットワーク(CMNet)を提案する。
PASCAL VOC 2012、MS COCO、FSS-1000データセットによる実験により、我々のネットワークは最新の数ショットセグメンテーション性能を新たに達成した。
論文 参考訳(メタデータ) (2021-08-19T06:26:11Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Image Retrieval for Structure-from-Motion via Graph Convolutional
Network [13.040952255039702]
本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。
問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。
実験により,本手法は高度にあいまいで重複したシーンの挑戦的データセットにおいて,極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:03:51Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。