論文の概要: Segment Anything Model is a Good Teacher for Local Feature Learning
- arxiv url: http://arxiv.org/abs/2309.16992v3
- Date: Tue, 18 Jun 2024 03:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:04:09.910090
- Title: Segment Anything Model is a Good Teacher for Local Feature Learning
- Title(参考訳): 局所的特徴学習のためのセグメンテーションモデル
- Authors: Jingqian Wu, Rongtao Xu, Zach Wood-Doughty, Changwei Wang, Shibiao Xu, Edmund Y. Lam,
- Abstract要約: 局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
データ駆動型局所特徴学習手法は、訓練にピクセルレベルの対応に頼る必要がある。
本研究では,SAMFeatを教師として導入し,局所的な特徴学習の指導を行う。
- 参考スコア(独自算出の注目度): 19.66262816561457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local feature detection and description play an important role in many computer vision tasks, which are designed to detect and describe keypoints in "any scene" and "any downstream task". Data-driven local feature learning methods need to rely on pixel-level correspondence for training, which is challenging to acquire at scale, thus hindering further improvements in performance. In this paper, we propose SAMFeat to introduce SAM (segment anything model), a fundamental model trained on 11 million images, as a teacher to guide local feature learning and thus inspire higher performance on limited datasets. To do so, first, we construct an auxiliary task of Attention-weighted Semantic Relation Distillation (ASRD), which distillates feature relations with category-agnostic semantic information learned by the SAM encoder into a local feature learning network, to improve local feature description using semantic discrimination. Second, we develop a technique called Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC), which utilizes semantic groupings derived from SAM as weakly supervised signals, to optimize the metric space of local descriptors. Third, we design an Edge Attention Guidance (EAG) to further improve the accuracy of local feature detection and description by prompting the network to pay more attention to the edge region guided by SAM. SAMFeat's performance on various tasks such as image matching on HPatches, and long-term visual localization on Aachen Day-Night showcases its superiority over previous local features. The release code is available at https://github.com/vignywang/SAMFeat.
- Abstract(参考訳): 局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
データ駆動の局所的特徴学習手法は、大規模な取得が困難な訓練において、ピクセルレベルの対応に頼る必要があるため、パフォーマンスのさらなる改善を妨げている。
本稿では, SAMFeatを提案する。SAM(segment any model)は, 1100万の画像に基づいて訓練された基本モデルであり, 局所的な特徴学習を指導し, 限られたデータセット上でのより高い性能を刺激する教師である。
まず、SAMエンコーダが学習したカテゴリに依存しないセマンティックな意味情報を局所的な特徴学習ネットワークに蒸留し、意味的識別を用いて局所的な特徴記述を改善するための、注意重み付きセマンティックな関係蒸留(ASRD)の補助タスクを構築する。
次に, SAMから派生したセマンティックグルーピングを弱教師付き信号として利用し, 局所記述子の距離空間を最適化する, Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC) という手法を開発した。
第3に,ネットワークにSAMにより誘導されるエッジ領域に注意を向けるよう促すことにより,ローカル特徴の検出と記述の精度をさらに向上するエッジ注意誘導(EAG)を設計する。
HPatchのイメージマッチングやAachen Day-Nightの長期的な視覚的ローカライゼーションなど、さまざまなタスクにおけるSAMFeatのパフォーマンスは、以前のローカル機能よりも優れていることを示している。
リリースコードはhttps://github.com/vignywang/SAMFeat.comで公開されている。
関連論文リスト
- Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - AEGIS-Net: Attention-guided Multi-Level Feature Aggregation for Indoor
Place Recognition [12.728087388529028]
AEGIS-Netは、RGBの点雲を取り込み、グローバルな位置記述子を生成する新しい屋内位置認識モデルである。
AEGIS-Netはセマンティックエンコーダ、セマンティックデコーダ、アテンション誘導機能埋め込みで構成されています。
我々は,ScanNetPRデータセット上でAIGIS-Netを評価し,その性能を事前学習機能ベース手法と5つの最先端ディープラーニングベース手法と比較した。
論文 参考訳(メタデータ) (2023-12-15T05:09:08Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Learning Local Features with Context Aggregation for Visual Localization [24.167882373322957]
キーポイントの検出と記述は多くの視覚応用において不可欠である。
既存のほとんどのメソッドは、コンテキスト情報を考慮せずにローカル特徴を学習するために、検出-then-describeまたは検出-and-describe戦略を使用している。
本稿では,局所特徴の識別性を改善するために,低レベルテキスト情報と高レベル意味文脈情報の融合に着目した。
論文 参考訳(メタデータ) (2020-05-26T17:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。