論文の概要: Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence
- arxiv url: http://arxiv.org/abs/2410.09533v1
- Date: Sat, 12 Oct 2024 13:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:55:04.905432
- Title: Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence
- Title(参考訳): 局所特徴対応強化のための基礎視覚モデルからのセマンティックキューの活用
- Authors: Felipe Cadar, Guilherme Potje, Renato Martins, Cédric Demonceaux, Erickson R. Nascimento,
- Abstract要約: 本稿では,基礎視覚モデルの特徴から意味的手がかりを抽出し,局所的特徴マッチングを強化する手法を提案する。
カメラのローカライゼーションにおける性能は平均29%向上し,既存の6つのディスクリプタの適応版を提示する。
- 参考スコア(独自算出の注目度): 12.602194710071116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual correspondence is a crucial step in key computer vision tasks, including camera localization, image registration, and structure from motion. The most effective techniques for matching keypoints currently involve using learned sparse or dense matchers, which need pairs of images. These neural networks have a good general understanding of features from both images, but they often struggle to match points from different semantic areas. This paper presents a new method that uses semantic cues from foundation vision model features (like DINOv2) to enhance local feature matching by incorporating semantic reasoning into existing descriptors. Therefore, the learned descriptors do not require image pairs at inference time, allowing feature caching and fast matching using similarity search, unlike learned matchers. We present adapted versions of six existing descriptors, with an average increase in performance of 29% in camera localization, with comparable accuracy to existing matchers as LightGlue and LoFTR in two existing benchmarks. Both code and trained models are available at https://www.verlab.dcc.ufmg.br/descriptors/reasoning_accv24
- Abstract(参考訳): 視覚対応は、カメラのローカライゼーション、画像登録、動きからの構造など、重要なコンピュータビジョンタスクにおける重要なステップである。
キーポイントをマッチングするための最も効果的なテクニックは、一対のイメージを必要とする学習されたスパースまたは密度の高いマーカを使用することである。
これらのニューラルネットワークは、両方の画像の特徴をよく理解しているが、しばしば異なる意味領域の点と一致するのに苦労する。
本稿では,基礎視覚モデルの特徴(DINOv2 など)から意味的手がかりを用いて,既存の記述子に意味的推論を組み込むことで,局所的特徴マッチングを強化する手法を提案する。
したがって、学習した記述子は推論時にイメージペアを必要とせず、学習したマーカとは異なり、類似性検索を用いた特徴キャッシングと高速マッチングが可能である。
既存の6つのディスクリプタの適応版を提示し、カメラのローカライゼーション性能は平均29%向上し、2つの既存ベンチマークでLightGlueやLoFTRのような既存のマーカに匹敵する精度を示した。
コードとトレーニングされたモデルの両方がhttps://www.verlab.dcc.ufmg.br/descriptors/reasoning_accv24で利用可能である。
関連論文リスト
- Improving the matching of deformable objects by learning to detect
keypoints [6.4587163310833855]
本研究では,非剛性画像対応タスクにおける正しいマッチング数を増やすための新しい学習キーポイント検出手法を提案する。
我々はエンドツーエンドの畳み込みニューラルネットワーク(CNN)をトレーニングし、考慮された記述子により適したキーポイント位置を見つける。
実験により,本手法は検出手法と併用して多数の記述子の平均マッチング精度を向上させることを示した。
また,本手法を,現在利用可能な最も優れたキーポイント検出器と同等に動作する複雑な実世界のタスクオブジェクト検索に適用する。
論文 参考訳(メタデータ) (2023-09-01T13:02:19Z) - Learning to Detect Good Keypoints to Match Non-Rigid Objects in RGB
Images [7.428474910083337]
本稿では,非剛性画像対応タスクの正マッチ数を最大化するために,新しい学習キーポイント検出手法を提案する。
我々のトレーニングフレームワークは、アノテートされた画像対と予め定義された記述子抽出器をマッチングして得られる真の対応を利用して、畳み込みニューラルネットワーク(CNN)を訓練する。
実験の結果,本手法は平均整合精度で20時までに非剛体物体の実像に対して,最先端のキーポイント検出器よりも優れていた。
論文 参考訳(メタデータ) (2022-12-13T11:59:09Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Guide Local Feature Matching by Overlap Estimation [9.387323456222823]
OETRというTRansformerを用いた画像ペア上でのオーバーラップ推定手法を提案する。
OETRは、特徴相関の2段階のプロセスで重なり推定を行い、次いで重なり回帰を行う。
実験の結果,OETRは局所的特徴マッチング性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-02-18T07:11:36Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning Dynamic Alignment via Meta-filter for Few-shot Learning [94.41887992982986]
少ないショット学習は、学習知識を極めて限定的な(サポート)例で適応させることで、新しいクラスを認識することを目的としている。
異なるローカルサポート情報に従って、クエリ領域とチャネルの両方を効果的に強調表示できる動的アライメントを学びます。
結果として得られたフレームワークは、主要な数発の視覚認識ベンチマークに最新技術を確立します。
論文 参考訳(メタデータ) (2021-03-25T03:29:33Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Augmented Bi-path Network for Few-shot Learning [16.353228724916505]
マルチスケールでグローバル機能とローカル機能を比較するために,Augmented Bi-path Network (ABNet)を提案する。
具体的には、各画像の局所的な特徴として、有能なパッチを抽出し、埋め込みする。その後、モデルは、より堅牢な機能を強化するために、その機能を強化することを学習する。
論文 参考訳(メタデータ) (2020-07-15T11:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。