論文の概要: UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description
without Local Correspondence Supervision
- arxiv url: http://arxiv.org/abs/2001.07252v1
- Date: Mon, 20 Jan 2020 21:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:14:29.084201
- Title: UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description
without Local Correspondence Supervision
- Title(参考訳): UR2KiD: 局所対応を伴わない検索,キーポイント検出,キーポイント記述の統合
- Authors: Tsun-Yi Yang and Duy-Kien Nguyen and Huub Heijnen and Vassileios
Balntas
- Abstract要約: キーポイント検出、記述、画像検索という3つの関連するタスクは、単一の統合フレームワークを使用して共同で取り組むことができる。
標準的なResNetアーキテクチャのシーケンシャルレイヤからの多様な情報を活用することで、ローカル情報をエンコードするキーポイントと記述子を抽出できる。
画像検索のためのグローバル情報は、上記のローカル応答のプールに基づいて、エンドツーエンドのパイプラインにエンコードされる。
- 参考スコア(独自算出の注目度): 16.68130648568593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore how three related tasks, namely keypoint detection,
description, and image retrieval can be jointly tackled using a single unified
framework, which is trained without the need of training data with point to
point correspondences. By leveraging diverse information from sequential layers
of a standard ResNet-based architecture, we are able to extract keypoints and
descriptors that encode local information using generic techniques such as
local activation norms, channel grouping and dropping, and self-distillation.
Subsequently, global information for image retrieval is encoded in an
end-to-end pipeline, based on pooling of the aforementioned local responses. In
contrast to previous methods in local matching, our method does not depend on
pointwise/pixelwise correspondences, and requires no such supervision at all
i.e. no depth-maps from an SfM model nor manually created synthetic affine
transformations. We illustrate that this simple and direct paradigm, is able to
achieve very competitive results against the state-of-the-art methods in
various challenging benchmark conditions such as viewpoint changes, scale
changes, and day-night shifting localization.
- Abstract(参考訳): 本稿では,キーポイント検出,記述,画像検索という3つの関連タスクを,ポイント対ポイント対応を伴うデータトレーニングを必要とせず,単一の統合フレームワークを用いて協調的に行う方法について検討する。
標準ResNetアーキテクチャのシーケンシャルレイヤからの多様な情報を活用することで、ローカルアクティベーションノルム、チャネルのグルーピングとドロップ、自己蒸留といった一般的な技術を用いて、ローカル情報を符号化するキーポイントと記述子を抽出することができる。
その後、上記ローカル応答のプーリングに基づいて、画像検索のためのグローバル情報をエンドツーエンドパイプラインに符号化する。
局所マッチングにおける従来の手法とは対照的に,本手法はポイントワイド/ピクセルワイド対応には依存せず,SfMモデルからの深度マップも手作業で作成した合成アフィン変換も不要である。
この単純かつ直接的なパラダイムは、視点変化、スケール変化、夜間シフトローカライゼーションなど、様々な挑戦的なベンチマーク条件において、最先端の手法に対して非常に競争力のある結果が得られることを示す。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Patch2Pix: Epipolar-Guided Pixel-Level Correspondences [38.38520763114715]
Patch2Pixは,これらの提案によって定義された局所領域から画素レベルのマッチングを回帰することで,提案手法を洗練する新しい改良ネットワークである。
改良ネットワークは画像マッチング, ホモグラフィー推定, ローカライゼーションタスクにおいて, 対応ネットワークの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-12-03T13:44:02Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - A Rotation-Invariant Framework for Deep Point Cloud Analysis [132.91915346157018]
ネットワーク入力時に一般的な3次元カルト座標を置き換えるために,新しい低レベル純粋回転不変表現を導入する。
また,これらの表現を特徴に組み込むネットワークアーキテクチャを提案し,点とその近傍の局所的関係とグローバルな形状構造を符号化する。
本手法は, 形状分類, 部分分割, 形状検索を含む多点雲解析タスクにおいて評価する。
論文 参考訳(メタデータ) (2020-03-16T14:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。