論文の概要: DMESA: Densely Matching Everything by Segmenting Anything
- arxiv url: http://arxiv.org/abs/2408.00279v1
- Date: Thu, 1 Aug 2024 04:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:45:24.452720
- Title: DMESA: Densely Matching Everything by Segmenting Anything
- Title(参考訳): DMESA: あらゆるものをセグメンテーションすることで、全てを巧みにマッチさせる
- Authors: Yesheng Zhang, Xu Zhao,
- Abstract要約: 本稿では,新しい特徴マッチング手法としてMESAとDMESAを提案する。
MESAはSAMの高度な画像理解に基づいて、点マッチングの前に暗黙のセマンティック領域マッチングを確立する。
繰り返し計算が少ないため、DMESAはMESAと比較して約5倍の速度向上を示す。
- 参考スコア(独自算出の注目度): 16.16319526547664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose MESA and DMESA as novel feature matching methods, which utilize Segment Anything Model (SAM) to effectively mitigate matching redundancy. The key insight of our methods is to establish implicit-semantic area matching prior to point matching, based on advanced image understanding of SAM. Then, informative area matches with consistent internal semantic are able to undergo dense feature comparison, facilitating precise inside-area point matching. Specifically, MESA adopts a sparse matching framework and first obtains candidate areas from SAM results through a novel Area Graph (AG). Then, area matching among the candidates is formulated as graph energy minimization and solved by graphical models derived from AG. To address the efficiency issue of MESA, we further propose DMESA as its dense counterpart, applying a dense matching framework. After candidate areas are identified by AG, DMESA establishes area matches through generating dense matching distributions. The distributions are produced from off-the-shelf patch matching utilizing the Gaussian Mixture Model and refined via the Expectation Maximization. With less repetitive computation, DMESA showcases a speed improvement of nearly five times compared to MESA, while maintaining competitive accuracy. Our methods are extensively evaluated on five datasets encompassing indoor and outdoor scenes. The results illustrate consistent performance improvements from our methods for five distinct point matching baselines across all datasets. Furthermore, our methods exhibit promise generalization and improved robustness against image resolution variations. The code is publicly available at https://github.com/Easonyesheng/A2PM-MESA.
- Abstract(参考訳): 本稿では,Segment Anything Model (SAM) を用いた新しい特徴マッチング手法としてMESAとDMESAを提案する。
提案手法の重要な洞察は,SAMの高度な画像理解に基づいて,点マッチングに先立って暗黙的な領域マッチングを確立することである。
次に、情報領域マッチングと一貫した内部意味的マッチングは、密集した特徴比較を行え、正確な内点マッチングを容易にする。
特に、MESAはスパースマッチングフレームワークを採用し、まず新しいエリアグラフ(AG)を通してSAM結果から候補領域を取得する。
次に、候補間の領域マッチングをグラフエネルギー最小化として定式化し、AGから派生したグラフィカルモデルで解いた。
さらに,MESAの効率性問題に対処するため,DMESAを高密度なマッチングフレームワークとして提案する。
AGによって候補領域が特定されると、DMESAは密度の高いマッチング分布を生成することによって、領域マッチングを確立する。
これらの分布はガウス混合モデルを用いたオフザシェルフパッチマッチングから生成され、期待最大化により精製される。
繰り返し計算の少ないDMESAは、競争精度を維持しながら、MESAと比較して約5倍の速度向上を示す。
本手法は,屋内と屋外のシーンを含む5つのデータセットに対して広範に評価されている。
その結果,全データセットにまたがる5つの点マッチングベースラインに対して,本手法による一貫したパフォーマンス改善が示された。
さらに,提案手法は画像解像度の変動に対して,将来的な一般化とロバスト性の向上を示す。
コードはhttps://github.com/Easonyesheng/A2PM-MESAで公開されている。
関連論文リスト
- Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap [11.96884248631201]
教師なし領域一般化問題のマルチモーダル版に取り組む。
我々のフレームワークは、ソースデータセットを共同視覚言語空間で正確かつ効率的に検索できるという前提に依存している。
我々は,テキストクエリと粗い量子化に使用される画像セントロイドとの距離が大きいため,近接した近接探索が低リコールに悩まされていることを理論的に示す。
論文 参考訳(メタデータ) (2024-02-06T21:29:37Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - OAMatcher: An Overlapping Areas-based Network for Accurate Local Feature
Matching [9.006654114778073]
OAMatcherは、人間の動作を模倣して、密集した正確な一致を生成する、検知不要な手法である。
OAMatcherは重複する領域を予測し、効果的でクリーンなグローバルコンテキストアグリゲーションを促進する。
総合的な実験により、OAMatcherはいくつかのベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-02-12T03:32:45Z) - Mining Relations among Cross-Frame Affinities for Video Semantic
Segmentation [87.4854250338374]
関連性間の関係を, 単一スケールの内在的相関と多スケールの関係という2つの側面で検討する。
実験により,提案手法は最先端のVSS法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2022-07-21T12:12:36Z) - Seeking Similarities over Differences: Similarity-based Domain Alignment
for Adaptive Object Detection [86.98573522894961]
本研究では,Unsupervised Domain Adaptation (UDA) アルゴリズムが検出に使用するコンポーネントを一般化するフレームワークを提案する。
具体的には、最適な設計選択を生かした新しいUDAアルゴリズムViSGAを提案し、インスタンスレベルの特徴を集約する単純だが効果的な方法を提案する。
類似性に基づくグループ化と対角トレーニングの両方により、モデルでは、ゆるやかに整列されたドメインにまたがるすべてのインスタンスにマッチせざるを得ず、機能グループを粗い整列することに集中することが可能であることが示されています。
論文 参考訳(メタデータ) (2021-10-04T13:09:56Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z) - Learning Independent Instance Maps for Crowd Localization [44.6430092887941]
Independent Instance Map segmentation (IIM) という,クラウドローカライゼーションのためのエンドツーエンドかつ簡単なフレームワークを提案する。
IIMセグメントは独立した接続コンポーネントに群集し、位置と群集数を得ます。
異なる密度領域のセグメンテーション品質を向上させるために,微分可能二元化モジュール(bm)を提案する。
BMはローカライズモデルに2つの利点をもたらす: 1) 異なる画像のしきい値マップを適応的に学習し、各インスタンスをより正確に検出する; 2) バイナリ予測とラベルの損失を使ってモデルを直接訓練する。
論文 参考訳(メタデータ) (2020-12-08T02:17:19Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Adaptive Mixture Regression Network with Local Counting Map for Crowd
Counting [16.816382549827214]
そこで我々は,密度マップに基づくアプローチよりも正確な結果を得るために,LCM (Local counting map) という新しいターゲットを導入する。
また、3つのモジュールからなる適応型混合回帰フレームワークを粗大な方法で提案し、群衆推定の精度をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T13:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。