論文の概要: MGCA-Net: Multi-Graph Contextual Attention Network for Two-View Correspondence Learning
- arxiv url: http://arxiv.org/abs/2512.23369v1
- Date: Mon, 29 Dec 2025 10:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.470822
- Title: MGCA-Net: Multi-Graph Contextual Attention Network for Two-View Correspondence Learning
- Title(参考訳): MGCA-Net:二視点対応学習のためのマルチグラフコンテキスト注意ネットワーク
- Authors: Shuyuan Lin, Mengtin Lo, Haosheng Chen, Yanjie Liang, Qiangqiang Wu,
- Abstract要約: 2視点対応学習はコンピュータビジョンにおける重要な課題である。
マルチグラフコンテキスト注意ネットワーク(MGCA-Net)を提案する。
MGCA-Netは、既存のSOTA法よりも、アウタラリジェクションやカメラポーズ推定タスクにおいて優れていることを示す。
- 参考スコア(独自算出の注目度): 18.21720738180151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-view correspondence learning is a key task in computer vision, which aims to establish reliable matching relationships for applications such as camera pose estimation and 3D reconstruction. However, existing methods have limitations in local geometric modeling and cross-stage information optimization, which make it difficult to accurately capture the geometric constraints of matched pairs and thus reduce the robustness of the model. To address these challenges, we propose a Multi-Graph Contextual Attention Network (MGCA-Net), which consists of a Contextual Geometric Attention (CGA) module and a Cross-Stage Multi-Graph Consensus (CSMGC) module. Specifically, CGA dynamically integrates spatial position and feature information via an adaptive attention mechanism and enhances the capability to capture both local and global geometric relationships. Meanwhile, CSMGC establishes geometric consensus via a cross-stage sparse graph network, ensuring the consistency of geometric information across different stages. Experimental results on two representative YFCC100M and SUN3D datasets show that MGCA-Net significantly outperforms existing SOTA methods in the outlier rejection and camera pose estimation tasks. Source code is available at http://www.linshuyuan.com.
- Abstract(参考訳): 2視点対応学習はコンピュータビジョンにおける重要な課題であり、カメラポーズ推定や3次元再構成などのアプリケーションに対する信頼性の高いマッチング関係を確立することを目的としている。
しかし、既存の手法では局所的幾何モデリングや段差情報最適化に制限があり、一致したペアの幾何的制約を正確に捉えることは困難であり、したがってモデルの堅牢性を低下させる。
これらの課題に対処するために,CGA(Contextual Geometric Attention)モジュールとCSMGC(Cross-Stage Multi-Graph Consensus)モジュールからなるMGCA-Net(Multi-Graph Contextual Attention Network)を提案する。
具体的には,空間的位置と特徴情報を適応的注意機構を通じて動的に統合し,局所的および大域的幾何学的関係を捉える能力を高める。
一方、CSMGCは、異なる段階にわたる幾何学情報の整合性を確保するために、クロスステージスパースグラフネットワークを介して幾何学的コンセンサスを確立する。
2つの代表的YFCC100MとSUN3Dデータセットによる実験結果から、MGCA-Netは既存のSOTA法よりも格段に優れていることが示された。
ソースコードはhttp://www.linshuyuan.comで入手できる。
関連論文リスト
- Multivariate Time Series Forecasting with Hybrid Euclidean-SPD Manifold Graph Neural Networks [31.893767537160258]
本稿では,ハイブリダイアン・リーマンのフレームワーク内でデータジオメトリをキャプチャするグラフニューラルネットワークモデルを提案する。
HSMGNNは、最先端のベースラインよりも13.8%向上している。
論文 参考訳(メタデータ) (2025-12-16T02:42:03Z) - GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection [1.1106255381859969]
マルチモーダル融合と高度な特徴学習を組み合わせた統合フレームワークGraphFusion3Dを提案する。
本稿では,画像特徴を点表現に適応的に統合し,幾何学的情報と意味的情報の両方を充実させる適応型クロスモーダル変換器(ACMT)を提案する。
提案手法では,局所的な幾何学的構造とグローバルな意味的コンテキストを同時に捉えるために近傍関係をモデル化する新しいメカニズムであるグラフ推論モジュール(GRM)を導入する。
論文 参考訳(メタデータ) (2025-12-02T18:05:02Z) - 3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding [18.76513756741288]
現在のアプローチは主に2D画像空間におけるクロスタスク関係を捉えており、しばしば3D認識に欠ける非構造的特徴に繋がる。
MTLネットワークにおける幾何学的整合性として,ビュー間の相関,すなわちコスト容積を統合することで,この問題に対処することを提案する。
具体的には、タスク間で共有される軽量なクロスビューモジュール(CvM)を導入し、ビュー間で情報を交換し、クロスビューの相関を捉える。
論文 参考訳(メタデータ) (2025-11-25T18:59:34Z) - Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。
本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。
この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-08-28T12:33:26Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。