論文の概要: Gromov Wasserstein Optimal Transport for Semantic Correspondences
- arxiv url: http://arxiv.org/abs/2602.03105v1
- Date: Tue, 03 Feb 2026 04:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.251997
- Title: Gromov Wasserstein Optimal Transport for Semantic Correspondences
- Title(参考訳): 意味対応のためのGromov Wasserstein Optimal Transport
- Authors: Francis Snelgar, Stephen Gould, Ming Xu, Liang Zheng, Akshay Asthana,
- Abstract要約: 我々は、DINOv2ベースラインの性能を大幅に向上させ、競争力があり、時には最先端の手法を超越することを示す。
我々は、Gromov Wasserstein空間の滑らかさを含む最適な輸送アルゴリズムにマッチする標準近傍を置き換える。
- 参考スコア(独自算出の注目度): 38.64509144392513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing correspondences between image pairs is a long studied problem in computer vision. With recent large-scale foundation models showing strong zero-shot performance on downstream tasks including classification and segmentation, there has been interest in using the internal feature maps of these models for the semantic correspondence task. Recent works observe that features from DINOv2 and Stable Diffusion (SD) are complementary, the former producing accurate but sparse correspondences, while the latter produces spatially consistent correspondences. As a result, current state-of-the-art methods for semantic correspondence involve combining features from both models in an ensemble. While the performance of these methods is impressive, they are computationally expensive, requiring evaluating feature maps from large-scale foundation models. In this work we take a different approach, instead replacing SD features with a superior matching algorithm which is imbued with the desirable spatial consistency property. Specifically, we replace the standard nearest neighbours matching with an optimal transport algorithm that includes a Gromov Wasserstein spatial smoothness prior. We show that we can significantly boost the performance of the DINOv2 baseline, and be competitive and sometimes surpassing state-of-the-art methods using Stable Diffusion features, while being 5--10x more efficient. We make code available at https://github.com/fsnelgar/semantic_matching_gwot .
- Abstract(参考訳): 画像ペア間の対応を確立することは、コンピュータビジョンにおいて長年研究されてきた問題である。
近年の大規模ファンデーションモデルでは,分類やセグメンテーションを含む下流タスクにおけるゼロショット性能が向上しているため,これらのモデルの内部特徴マップを意味対応タスクに利用することに関心が持たれている。
最近の研究では、DINOv2とStable Diffusion(SD)の特徴は相補的であり、前者は正確だが疎結合であり、後者は空間的に一貫した対応である。
結果として、現在の意味対応のための最先端の手法は、アンサンブル内の両方のモデルの特徴を組み合わせたものである。
これらの手法の性能は目覚ましいが、計算コストが高く、大規模な基礎モデルから特徴写像を評価する必要がある。
本研究では、SD特徴を望ましい空間整合性を持つ優れたマッチングアルゴリズムに置き換える代わりに、異なるアプローチを採っている。
具体的には、Gromov Wasserstein空間の滑らかさを含む最適な輸送アルゴリズムに適合する標準近傍を置き換える。
我々は,DINOv2ベースラインの性能を大幅に向上させ,安定拡散機能を用いた最先端手法を競合的かつ時として超越し,効率は5~10倍に向上することを示した。
私たちはhttps://github.com/fsnelgar/semantic_matching_gwotでコードを公開しています。
関連論文リスト
- DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching [53.39693288324375]
ネットワーク内正規化と関数型マップトレーニングの両方をデータ駆動方式に置き換えることができることを示す。
まず、スコアベース生成モデルを用いてスペクトル領域における関数写像の生成モデルを訓練する。
次に、得られたモデルを利用して、新しい形状コレクション上の基底真理汎関数写像の構造的特性を促進する。
論文 参考訳(メタデータ) (2025-07-31T16:44:54Z) - A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence [12.602194710071116]
本稿では,基礎視覚モデルの特徴から意味的手がかりを抽出し,局所的特徴マッチングを強化する手法を提案する。
カメラのローカライゼーションにおける性能は平均29%向上し,既存の6つのディスクリプタの適応版を提示する。
論文 参考訳(メタデータ) (2024-10-12T13:45:26Z) - Zero-Shot Image Feature Consensus with Deep Functional Maps [20.988872402347756]
より優れた対応戦略が利用可能であることを示し,対応フィールドに直接構造を課す関数写像について述べる。
提案手法は,学習対象の大規模視覚モデルに埋め込まれた知識をよりよく反映し,よりスムーズなだけでなく,より正確に対応できることを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:47Z) - Adaptive Assignment for Geometry Aware Local Feature Matching [22.818457285745733]
検出不要な特徴マッチングアプローチは、その優れたパフォーマンスのおかげで、現在大きな注目を集めている。
本稿では,AdaMatcherについて紹介する。AdaMatcherは特徴相関と協調可視領域推定を,精巧な特徴相互作用モジュールを通じて実現する。
次に、AdaMatcherは、画像間のスケールを推定しながらパッチレベルのマッチングに適応的な割り当てを行い、最後に、スケールアライメントとサブピクセルレグレッションモジュールを通じて、コビジブルマッチングを洗練する。
論文 参考訳(メタデータ) (2022-07-18T08:22:18Z) - Multiway Non-rigid Point Cloud Registration via Learned Functional Map
Synchronization [105.14877281665011]
我々は、点雲上に定義された学習関数に関する地図を同期させることにより、複数の非剛体形状を登録する新しい方法であるSyNoRiMを提案する。
提案手法は,登録精度において最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2021-11-25T02:37:59Z) - Temporally-Consistent Surface Reconstruction using Metrically-Consistent
Atlases [131.50372468579067]
そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。
我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応性を確立することができる。
当社のアプローチは、いくつかの挑戦的なデータセットにおいて、最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-11-12T17:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。