論文の概要: MARCO: Navigating the Unseen Space of Semantic Correspondence
- arxiv url: http://arxiv.org/abs/2604.18267v1
- Date: Mon, 20 Apr 2026 13:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.909514
- Title: MARCO: Navigating the Unseen Space of Semantic Correspondence
- Title(参考訳): MARCO: セマンティック対応の見知らぬ空間を旅する
- Authors: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth,
- Abstract要約: MARCOは、新しいトレーニングフレームワークによって駆動される一般化可能な対応のための統一モデルである。
我々のアプローチは、いくつかのキーポイントを密でセマンティックに一貫性のある対応に変換する。
MARCOは、SPair-71k、AP-10K、PF-PASCALに新しい状態を設定する。
- 参考スコア(独自算出の注目度): 28.55177516749558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .
- Abstract(参考訳): 意味対応の最近の進歩は、DINOv2と拡散バックボーンを組み合わせた二重エンコーダアーキテクチャに依存している。
正確性はあるものの、これらの10億パラメータモデルは、トレーニングキーポイントをはるかに越え、ベンチマークパフォーマンスと実際のユーザビリティのギャップを明らかにします。
DINOv2をベースとしたMARCOは,微粒化ローカライゼーションとセマンティック・ジェネリゼーションの両方を強化した,新しいトレーニングフレームワークによって駆動される一般化可能な対応モデルである。
空間的精度を向上する粗大な目的と自己蒸留の枠組みを結合することにより、注釈付き領域を超えてスパース・インスペクションを拡大し、我々のアプローチは、少数のキーポイントを密で意味的に一貫性のある対応に変換する。
MARCOはSPair-71k、AP-10K、PF-PASCALに新たな最先端技術を設定し、粒度の細かいローカライゼーションしきい値(+8.9 PCK@0.01)、未確認キーポイント(+5.1、SPair-U)とカテゴリ(+4.7、MP-100)への最強の一般化(+4.7、MP-100)、拡散ベースのアプローチよりも3倍小さく、そして10倍高速なゲインを持つ。
コードはhttps://github.com/visinf/MARCO で公開されている。
関連論文リスト
- ARTA: Adaptive Mixed-Resolution Token Allocation for Efficient Dense Feature Extraction [17.589359317827984]
ARTAは高密度特徴抽出のための混合分解能視覚変換器である。
低解像度(粗い)トークンから始まり、より細かいトークンを必要とする領域を予測するために軽量アロケータを使用する。
実験により、ARTAはFLOPを著しく少なくしてADE20KとCOCO-Stuffの最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2026-03-27T10:26:54Z) - Making Training-Free Diffusion Segmentors Scale with the Generative Power [118.72472901404814]
一連の研究は、事前学習された拡散モデルを、それ以上の訓練をせずに意味的セグメンテーションに適応することに焦点を当てている。
本稿では,自動アグリゲーションと画素単位の再スケーリングという2つの手法を提案する。
論文 参考訳(メタデータ) (2026-03-06T11:35:37Z) - Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。
NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。
3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-27T12:04:07Z) - NM-Hebb: Coupling Local Hebbian Plasticity with Metric Learning for More Accurate and Interpretable CNNs [0.0]
NM-Hebbは神経刺激による局所的可塑性と遠隔監視を統合している。
フェーズ1は、クロスエントロピーの目標を共同で最適化することで、標準的な教師付きトレーニングを拡張します。
フェーズ2は、一対のメートル法学習損失でバックボーンを微調整する。
論文 参考訳(メタデータ) (2025-08-27T13:53:04Z) - Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:27:42Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。