論文の概要: CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching
- arxiv url: http://arxiv.org/abs/2503.23925v1
- Date: Mon, 31 Mar 2025 10:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:10.877823
- Title: CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching
- Title(参考訳): CoMatch:バイラテラルサブピクセルレベルの半次元画像マッチングのための動的可視性認識変換器
- Authors: Zizhuo Li, Yifan Lu, Linfeng Tang, Shihua Zhang, Jiayi Ma,
- Abstract要約: CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。
可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。
ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
- 参考スコア(独自算出の注目度): 31.42896369011162
- License:
- Abstract: This prospective study proposes CoMatch, a novel semi-dense image matcher with dynamic covisibility awareness and bilateral subpixel accuracy. Firstly, observing that modeling context interaction over the entire coarse feature map elicits highly redundant computation due to the neighboring representation similarity of tokens, a covisibility-guided token condenser is introduced to adaptively aggregate tokens in light of their covisibility scores that are dynamically estimated, thereby ensuring computational efficiency while improving the representational capacity of aggregated tokens simultaneously. Secondly, considering that feature interaction with massive non-covisible areas is distracting, which may degrade feature distinctiveness, a covisibility-assisted attention mechanism is deployed to selectively suppress irrelevant message broadcast from non-covisible reduced tokens, resulting in robust and compact attention to relevant rather than all ones. Thirdly, we find that at the fine-level stage, current methods adjust only the target view's keypoints to subpixel level, while those in the source view remain restricted at the coarse level and thus not informative enough, detrimental to keypoint location-sensitive usages. A simple yet potent fine correlation module is developed to refine the matching candidates in both source and target views to subpixel level, attaining attractive performance improvement. Thorough experimentation across an array of public benchmarks affirms CoMatch's promising accuracy, efficiency, and generalizability.
- Abstract(参考訳): この先進的な研究は、ダイナミックな可視性認識と両側のサブピクセル精度を備えた新しい半高精細画像マッチングであるCoMatchを提案する。
第一に、粗い特徴写像全体のモデリング相互作用がトークンの表現類似性による高い冗長な計算を引き起こすことを観察し、動的に推定される可視性スコアに基づいてトークンを適応的に集約する可視性誘導トークン凝縮器を導入し、同時に集約されたトークンの表現能力を向上させるとともに、計算効率の確保を図る。
第二に、巨大な非可視領域との特徴的相互作用が妨げられ、特徴的特徴を損なう可能性があることを考慮し、非可視化トークンからの無関係なメッセージ放送を選択的に抑制するために、可視性支援型注意機構を配置し、全ての可視化トークンよりも関連性に頑健でコンパクトな注意を喚起する。
第3に,現行の手法では,ターゲットビューのキーポイントのみをサブピクセルレベルに調整するが,ソースビューのキーポイントは粗いレベルに制限されているため,キーポイントの位置情報に敏感な使用に対して十分な情報が得られていない。
ソースビューとターゲットビューの両方のマッチング候補をサブピクセルレベルに洗練し、魅力的なパフォーマンス向上を実現するため、シンプルながら強力な微妙な相関モジュールが開発された。
CoMatchの有望な正確性、効率、一般化性が確認されている。
関連論文リスト
- CoCoNO: Attention Contrast-and-Complete for Initial Noise Optimization in Text-to-Image Synthesis [8.386261591495103]
自己注意マップと相互注意マップの相補的な情報を活用することで、初期潜伏者を最適化する新しいアルゴリズムであるCoCoNOを導入する。
本手法では,各自己注意区間が特定の被験者のクロスアテンションマップにのみリンクされていることを保証することで,所望のオーバーラップを最小化するアテンションコントラストロスと,これらのセグメント内でのアクティベーションを最大化し,各被写体が完全に明確に表現されることを保証するアテンション完全ロスという2つの新たなロス関数を導入する。
論文 参考訳(メタデータ) (2024-11-25T08:20:14Z) - Superpixel Cost Volume Excitation for Stereo Matching [27.757112234793624]
本研究では,スーパーピクセルソフト制約を組み込んだステレオマッチングの本質的な局所的整合性に着目する。
提案手法は,隣接する画素が同一物体に属することが前提とされ,スーパーピクセルの確率体積内によく似た強度を示す。
論文 参考訳(メタデータ) (2024-11-20T07:59:55Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer [33.603064903549985]
ASpanFormerはトランスフォーマーベースのディテクターフリーのマーカで、階層的なアテンション構造の上に構築されている。
本稿では,自己適応的に注意範囲を調整できる新しい注意操作を提案する。
これらの方法により、長距離依存を維持できるだけでなく、高関連性の画素間で微妙な注意を喚起することができる。
論文 参考訳(メタデータ) (2022-08-30T12:21:15Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Exploring Feature Representation Learning for Semi-supervised Medical
Image Segmentation [30.608293915653558]
半教師型医用画像分割のための2段階フレームワークを提案する。
重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探索することである。
段階適応型コントラスト学習法を提案し, 境界対応型コントラスト学習法を提案する。
本稿では,高品質な擬似ラベルを生成するためのアレータリック不確実性認識手法,すなわちAUAを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:06:12Z) - Summarize and Search: Learning Consensus-aware Dynamic Convolution for
Co-Saliency Detection [139.10628924049476]
人間は、まず、グループ全体のコンセンサス知識を要約し、その後、各画像内の対応するオブジェクトを検索することで、共相検出を行う。
以前の方法は、通常、最初のプロセスで堅牢性、スケーラビリティ、安定性を欠き、第2のプロセスでイメージ機能とコンセンサス機能を融合させる。
本稿では,新たなコンセンサスを考慮した動的畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-01T12:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。