論文の概要: MESA: Matching Everything by Segmenting Anything
- arxiv url: http://arxiv.org/abs/2401.16741v2
- Date: Mon, 8 Apr 2024 14:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:26:28.361183
- Title: MESA: Matching Everything by Segmenting Anything
- Title(参考訳): MESA: すべてをセグメンテーションで一致させる
- Authors: Yesheng Zhang, Xu Zhao,
- Abstract要約: MESAは、精度の高い領域(または領域)マッチングを確立するための新しいアプローチである。
室内および屋外の下流作業において,MESAが複数点整合器の精度を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 16.16319526547664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature matching is a crucial task in the field of computer vision, which involves finding correspondences between images. Previous studies achieve remarkable performance using learning-based feature comparison. However, the pervasive presence of matching redundancy between images gives rise to unnecessary and error-prone computations in these methods, imposing limitations on their accuracy. To address this issue, we propose MESA, a novel approach to establish precise area (or region) matches for efficient matching redundancy reduction. MESA first leverages the advanced image understanding capability of SAM, a state-of-the-art foundation model for image segmentation, to obtain image areas with implicit semantic. Then, a multi-relational graph is proposed to model the spatial structure of these areas and construct their scale hierarchy. Based on graphical models derived from the graph, the area matching is reformulated as an energy minimization task and effectively resolved. Extensive experiments demonstrate that MESA yields substantial precision improvement for multiple point matchers in indoor and outdoor downstream tasks, e.g. +13.61% for DKM in indoor pose estimation.
- Abstract(参考訳): 特徴マッチングは、画像間の対応を見つけることを含むコンピュータビジョンの分野において重要なタスクである。
従来の研究では、学習に基づく特徴比較を用いて顕著な性能を達成している。
しかし、画像間の冗長性の一致が広まれば、これらの手法では不要かつエラーを起こしやすい計算が生まれ、精度に限界が生じる。
この問題に対処するため, 精度の高い領域(あるいは領域)マッチングを実現するための新しい手法であるMESAを提案する。
MESAはまず、画像セグメンテーションの最先端基盤モデルであるSAMの高度な画像理解機能を活用して、暗黙的な意味を持つ画像領域を得る。
次に、これらの領域の空間構造をモデル化し、そのスケール階層を構築するために、マルチリレーショナルグラフを提案する。
このグラフから得られたグラフィカルモデルに基づいて、領域マッチングをエネルギー最小化タスクとして再構成し、効果的に解決する。
大規模な実験により、MESAは屋内および屋外の下流作業における複数の点マーカに対して、例えばDKMのDKMの精度が13.61%向上することを示した。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Adaptive Graph Convolution Module for Salient Object Detection [7.278033100480174]
本稿では,複雑なシーンを扱うための適応型グラフ畳み込みモジュール(AGCM)を提案する。
学習可能な領域生成層を用いて入力画像からプロトタイプ特徴を抽出する。
提案したAGCMは,SOD性能を定量的かつ定量的に劇的に向上させる。
論文 参考訳(メタデータ) (2023-03-17T07:07:17Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - A Multi-Task Deep Learning Framework for Building Footprint Segmentation [0.0]
足跡線構築タスクのための共同最適化方式を提案する。
また,画像再構成と建物足跡境界分割という2つの補助タスクも導入する。
特に、深層マルチタスク学習(MTL)ベースの統合完全畳み込みフレームワークを提案します。
論文 参考訳(メタデータ) (2021-04-19T15:07:27Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。