論文の概要: Selecting and Pruning: A Differentiable Causal Sequentialized State-Space Model for Two-View Correspondence Learning
- arxiv url: http://arxiv.org/abs/2503.17938v1
- Date: Sun, 23 Mar 2025 04:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:39.882252
- Title: Selecting and Pruning: A Differentiable Causal Sequentialized State-Space Model for Two-View Correspondence Learning
- Title(参考訳): Selecting and Pruning: 2視点対応学習のための微分因数列状態空間モデル
- Authors: Xiang Fang, Shihua Zhang, Hao Zhang, Tao Lu, Huabing Zhou, Jiayi Ma,
- Abstract要約: 2視点対応学習は,イメージペア間の真と偽の対応を識別することを目的としている。
Mamba固有の選択性にインスパイアされ、textbfCorrMamba, textbfCor correspondingence filterを提案する。
我々の方法は、AUC@20textdegreeにおいて、以前のSOTAを2.58ドルの絶対パーセンテージポイントで上回っている。
- 参考スコア(独自算出の注目度): 36.25732435294088
- License:
- Abstract: Two-view correspondence learning aims to discern true and false correspondences between image pairs by recognizing their underlying different information. Previous methods either treat the information equally or require the explicit storage of the entire context, tending to be laborious in real-world scenarios. Inspired by Mamba's inherent selectivity, we propose \textbf{CorrMamba}, a \textbf{Corr}espondence filter leveraging \textbf{Mamba}'s ability to selectively mine information from true correspondences while mitigating interference from false ones, thus achieving adaptive focus at a lower cost. To prevent Mamba from being potentially impacted by unordered keypoints that obscured its ability to mine spatial information, we customize a causal sequential learning approach based on the Gumbel-Softmax technique to establish causal dependencies between features in a fully autonomous and differentiable manner. Additionally, a local-context enhancement module is designed to capture critical contextual cues essential for correspondence pruning, complementing the core framework. Extensive experiments on relative pose estimation, visual localization, and analysis demonstrate that CorrMamba achieves state-of-the-art performance. Notably, in outdoor relative pose estimation, our method surpasses the previous SOTA by $2.58$ absolute percentage points in AUC@20\textdegree, highlighting its practical superiority. Our code will be publicly available.
- Abstract(参考訳): 2視点対応学習は、その基盤となる異なる情報を認識することによって、画像ペア間の真偽の対応を識別することを目的としている。
それまでの方法は、情報を均等に扱うか、コンテキスト全体の明示的な保存を必要とするかのいずれかであり、現実のシナリオでは面倒な傾向がある。
Mamba の固有選択性に着想を得て,真対応から情報を抽出し,偽応答からの干渉を緩和し,適応的焦点を低コストで達成する textbf{Corr {\displaystyle \textbf} の独立性フィルタである \textbf{CorrMamba} を提案する。
空間情報をマイニングする能力を隠蔽するキーポイントによって,マンバが潜在的に影響を受けないように,Gumbel-Softmax技術に基づく因果逐次学習アプローチをカスタマイズし,機能間の因果依存性を完全自律的かつ微分可能な方法で確立する。
さらに、ローカルコンテキスト拡張モジュールは、通信プルーニングに必要な重要なコンテキストキューをキャプチャして、コアフレームワークを補完するように設計されている。
相対的なポーズ推定、視覚的位置推定、分析に関する大規模な実験は、CorrMambaが最先端のパフォーマンスを達成することを示す。
特に、屋外の相対的ポーズ推定において、我々の方法はAUC@20\textdegreeの2.58$絶対パーセンテージポイントを上回り、その実用的優位性を強調している。
私たちのコードは公開されます。
関連論文リスト
- Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal [17.29370328189668]
ヘイズ除去は、ぼんやりとした入力から明確なイメージを復元することを目的としている。
既存の手法は、局所的な詳細保存のための短距離依存か、グローバルな文脈モデリングのための長距離依存のいずれかをキャプチャすることで、有意義な有効性を示している。
bfDehazeMaticは,2経路設計により短距離および長距離の依存関係を捕捉し,修復を改善する。
論文 参考訳(メタデータ) (2024-08-22T11:51:50Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Zero-shot Skeleton-based Action Recognition via Mutual Information
Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。
相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T23:41:55Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。