論文の概要: Deploy DINO with Many-to-Many Association
- arxiv url: http://arxiv.org/abs/2604.23670v1
- Date: Sun, 26 Apr 2026 12:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.491765
- Title: Deploy DINO with Many-to-Many Association
- Title(参考訳): メニーツーマニーアソシエーションによるDINOの展開
- Authors: Haodong Jiang, Mingzhe Li, Junfeng Wu,
- Abstract要約: 本稿では,既存の手法を難易度計算のゼロ階近似として解釈する新しい可能性視点を提案する。
ハーモニック・コンセンサス・最大化(HCM)と呼ばれる,より高速できめ細かいロバスト機構を提案する。
- 参考スコア(独自算出の注目度): 7.8674424739322175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the limited generalization of supervised image matching models to unseen image domains, we explore the zero-shot deployment of DINO features for this task. The generalist visual representation extracted from DINO has inherent ambiguity when used to match feature points among semantically similar instances, prompting us to adopt a many-to-many (m-to-m) matching paradigm. However, the existing robust mechanism under m-to-m data association is computationally heavy, which requires finding a maximum-cardinality matching in the inlier association graph for each parameter evaluation. To address this inefficiency, we introduce a novel likelihood perspective, which interprets the existing method as a zeroth-order approximation of otherwise intractable likelihood calculation,and inspires us to propose a faster and finer-grained robust mechanism, termed as Harmonic Consensus Maximization (HCM). Take camera pose estimation as an exemplifying downstream task, we demonstrate that general-purpose visual features, used out of the box without any adaptation, can compete with specialized matching models on out-of-distribution datasets when mated with m-to-m association and the HCM mechanism.
- Abstract(参考訳): 教師付き画像マッチングモデルの未確認画像領域への限定的な一般化により,本課題に対するDINO機能のゼロショット展開について検討する。
DINOから抽出された一般の視覚表現は、意味的に類似したインスタンス間の特徴点の一致に使用すると、本質的にあいまいさを持つため、多対多(m-to-m)マッチングパラダイムを採用する必要がある。
しかし、m-to-mデータアソシエーションにおける既存のロバストメカニズムは計算的に重く、各パラメータ評価のための不整合グラフの最大心電図マッチングを見つける必要がある。
この非効率性に対処するため,既存の手法を難易度計算のゼロ階近似として解釈し,高調波収束最大化(HCM)と呼ばれるより高速できめ細かなロバスト機構を提案する。
カメラのポーズ推定をダウンストリームタスクの例にとり、m-to-mアソシエーションとHCM機構が組み合わさった場合の分布外データセットの特殊なマッチングモデルと競合する、汎用的な視覚特徴を箱から取り出すことができることを示した。
関連論文リスト
- Maximum Likelihood Reconstruction for Multi-Look Digital Holography with Markov-Modeled Speckle Correlation [18.93229414605695]
デジタルホログラフィーなどのコヒーレントイメージングシステムにおいて、マルチルック取得はスペックルノイズを低減するために広く利用されている戦略である。
実際、ハードウェアの制約は測定の多様性を制限し、従来の手法の性能を低下させるルック間相関に繋がる。
複素数値多視点計測によるスペックルフリー反射率の再現について, 相関スペックルの存在下での再現について検討した。
論文 参考訳(メタデータ) (2026-04-22T03:36:52Z) - One CT Unified Model Training Framework to Rule All Scanning Protocols [32.68329101435685]
NICT(Non-ideal Measurement Computed Tomography)はCTの臨床的使用を拡大している。
ほとんどの方法はペアデータを必要とするが、これは避けられない臓器の動きによる非現実的な要求である。
サブマニフォールド間のギャップを埋めるために,不確実誘導マニフォールド平滑化(UMS)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:26:32Z) - Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。
グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。
提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-07-14T14:28:15Z) - PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文 参考訳(メタデータ) (2025-07-11T08:18:52Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - DEMO: A Statistical Perspective for Efficient Image-Text Matching [32.256725860652914]
本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。
DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。
さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
論文 参考訳(メタデータ) (2024-05-19T09:38:56Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。