論文の概要: LLHA-Net: A Hierarchical Attention Network for Two-View Correspondence Learning
- arxiv url: http://arxiv.org/abs/2512.24620v1
- Date: Wed, 31 Dec 2025 04:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.57099
- Title: LLHA-Net: A Hierarchical Attention Network for Two-View Correspondence Learning
- Title(参考訳): LLHA-Net:二視点対応学習のための階層型注意ネットワーク
- Authors: Shuyuan Lin, Yu Guo, Xiao Chen, Yanjie Liang, Guobao Xiao, Feiran Huang,
- Abstract要約: 本稿では階層型アテンションネットワーク(Layer-by-Layer Hierarchical Attention Network)という新しい手法を提案する。
コンピュータビジョンにおける特徴点マッチングの精度を向上させる。
本手法は, ステージ融合, 階層抽出, ネットワークの表現能力向上のためのアテンション機構を含む。
- 参考スコア(独自算出の注目度): 33.76961965760301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing the correct correspondence of feature points is a fundamental task in computer vision. However, the presence of numerous outliers among the feature points can significantly affect the matching results, reducing the accuracy and robustness of the process. Furthermore, a challenge arises when dealing with a large proportion of outliers: how to ensure the extraction of high-quality information while reducing errors caused by negative samples. To address these issues, in this paper, we propose a novel method called Layer-by-Layer Hierarchical Attention Network, which enhances the precision of feature point matching in computer vision by addressing the issue of outliers. Our method incorporates stage fusion, hierarchical extraction, and an attention mechanism to improve the network's representation capability by emphasizing the rich semantic information of feature points. Specifically, we introduce a layer-by-layer channel fusion module, which preserves the feature semantic information from each stage and achieves overall fusion, thereby enhancing the representation capability of the feature points. Additionally, we design a hierarchical attention module that adaptively captures and fuses global perception and structural semantic information using an attention mechanism. Finally, we propose two architectures to extract and integrate features, thereby improving the adaptability of our network. We conduct experiments on two public datasets, namely YFCC100M and SUN3D, and the results demonstrate that our proposed method outperforms several state-of-the-art techniques in both outlier removal and camera pose estimation. Source code is available at http://www.linshuyuan.com.
- Abstract(参考訳): 特徴点の正しい対応を確立することは、コンピュータビジョンの基本的な課題である。
しかし,特徴点間に多数の外れ値が存在することは,マッチング結果に大きな影響を及ぼし,プロセスの正確性や堅牢性は低下する。
さらに, 負のサンプルによる誤りを低減しつつ, 高品質な情報の抽出を確実にする方法という, 大量の外れ値を扱う際にも, 課題が生じる。
そこで本稿では,コンピュータビジョンにおける特徴点マッチングの精度を高める手法として,レイヤ・バイ・レイヤ階層型注意ネットワークを提案する。
提案手法は,特徴点の豊富な意味情報を強調することにより,ステージ融合,階層抽出,およびネットワークの表現能力を向上させるためのアテンション機構を組み込んだものである。
具体的には、各ステージからの特徴的情報を保存し、全体的な融合を実現し、特徴点の表現能力を向上する層間チャネル融合モジュールを提案する。
さらに、アテンション機構を用いて、グローバルな知覚と構造的意味情報を適応的にキャプチャし、融合する階層型アテンションモジュールを設計する。
最後に,特徴抽出と統合のための2つのアーキテクチャを提案し,ネットワークの適応性を向上させる。
我々は,YFCC100MとSUN3Dという2つの公開データセットを用いて実験を行い,提案手法は,外乱除去とカメラポーズ推定の両方において,最先端技術よりも優れていることを示した。
ソースコードはhttp://www.linshuyuan.comで入手できる。
関連論文リスト
- DAGLFNet:Deep Attention-Guided Global-Local Feature Fusion for Pseudo-Image Point Cloud Segmentation [6.418552842518015]
点群から識別的特徴を抽出する擬似画像ベース表現法であるDAGLFNetを提案する。
この手法は高性能とリアルタイムの能力のバランスを保ち、LiDARベースのリアルタイムアプリケーションに大きな可能性を示す。
論文 参考訳(メタデータ) (2025-10-12T06:35:03Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Learning to Reduce Information Bottleneck for Object Detection in Aerial
Images [5.4547979989237225]
まず,情報ボトルネックの理論から,オブジェクト検出フレームワークにおけるネックネットワークの重要性を分析する。
バックボーンからヘッドネットワークへのブリッジとして機能するグローバルセマンティックネットワークを,双方向のグローバル畳み込み方式で提案する。
既存のネックネットワークと比較して,より詳細な情報と計算コストの低減という利点がある。
論文 参考訳(メタデータ) (2022-04-05T07:46:37Z) - LC3Net: Ladder context correlation complementary network for salient
object detection [0.32116198597240836]
我々は,新しいラグコンテキスト相関補完ネットワーク (LC3Net) を提案する。
FCBはフィルタリング可能な畳み込みブロックであり、初期特徴の多様性に関する情報の自動収集を支援する。
DCMは、異なるレベルの特徴の密集を促進するための密接なクロスモジュールである。
BCDは双方向圧縮デコーダであり、マルチスケール機能の段階的縮小を支援する。
論文 参考訳(メタデータ) (2021-10-21T03:12:32Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。