論文の概要: GESS: Multi-cue Guided Local Feature Learning via Geometric and Semantic Synergy
- arxiv url: http://arxiv.org/abs/2604.05359v1
- Date: Tue, 07 Apr 2026 02:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.590997
- Title: GESS: Multi-cue Guided Local Feature Learning via Geometric and Semantic Synergy
- Title(参考訳): GESS:Geometric and Semantic Synergyによるマルチキューローカル特徴学習
- Authors: Yang Yi, Xieyuanli Chen, Jinpu Zhang, Hui Shen, Dewen Hu,
- Abstract要約: 局所的な特徴の検出と記述はコンピュータビジョンの基本課題である。
既存の手法は1つの外観の手がかりをモデリングに頼っており、不安定なキーポイントとディスクリプタ識別性に欠ける。
本稿では,意味的および幾何学的手がかりを活用して,検出の堅牢性と記述者の識別性を高めるマルチキューガイド型局所特徴学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.32050433924969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robust local feature detection and description are foundational tasks in computer vision. Existing methods primarily rely on single appearance cues for modeling, leading to unstable keypoints and insufficient descriptor discriminability. In this paper, we propose a multi-cue guided local feature learning framework that leverages semantic and geometric cues to synergistically enhance detection robustness and descriptor discriminability. Specifically, we construct a joint semantic-normal prediction head and a depth stability prediction head atop a lightweight backbone. The former leverages a shared 3D vector field to deeply couple semantic and normal cues, thereby resolving optimization interference from heterogeneous inconsistencies. The latter quantifies the reliability of local regions from a geometric consistency perspective, providing deterministic guidance for robust keypoint selection. Based on these predictions, we introduce the Semantic-Depth Aware Keypoint (SDAK) mechanism for feature detection. By coupling semantic reliability with depth stability, SDAK reweights keypoint responses to suppress spurious features in unreliable regions. For descriptor construction, we design a Unified Triple-Cue Fusion (UTCF) module, which employs a semantic-scheduled gating mechanism to adaptively inject multi-attribute features, improving descriptor discriminability. Extensive experiments on four benchmarks validate the effectiveness of the proposed framework. The source code and pre-trained model will be available at: https://github.com/yiyscut/GESS.git.
- Abstract(参考訳): 局所的な特徴の検出と記述はコンピュータビジョンの基本課題である。
既存の手法は主にモデリングのための単一の外観の手がかりに依存しており、不安定なキーポイントとディスクリプタの識別性に欠ける。
本稿では,意味的および幾何学的手がかりを利用して,検出の堅牢性と記述者の識別性を相乗的に向上するマルチキューガイド型局所特徴学習フレームワークを提案する。
具体的には,軽量バックボーン上に,共同意味正規予測ヘッドと深度安定性予測ヘッドを構築する。
前者は共有3次元ベクトル場を利用して意味論と通常の手がかりを深く結合し、不均一な不整合からの最適化干渉を解消する。
後者は、幾何学的整合性の観点から局所領域の信頼性を定量化し、ロバストなキーポイント選択のための決定論的ガイダンスを提供する。
これらの予測に基づいて,特徴検出のためのセマンティック・ディープス・アウェア・キーポイント(SDAK)機構を導入する。
セマンティック信頼性と深度安定性を結合することにより、SDAKはキーポイント応答を重み付け、信頼できない領域の急激な特徴を抑制する。
記述子構築のための一元三重項融合(UTCF)モジュールを設計し,多属性特徴を適応的に注入し,記述子識別性を向上させる。
提案手法の有効性を4つのベンチマークで検証した。
ソースコードと事前トレーニングされたモデルは、https://github.com/yiyscut/GESS.git.comで利用可能になる。
関連論文リスト
- Geometry-Aware Semantic Reasoning for Training Free Video Anomaly Detection [9.337342114768942]
トレーニング不要なビデオ異常検出(VAD)は、教師付きアプローチに代わるスケーラブルな代替手段として最近登場した。
本稿では,自由なVADを学習するための幾何学的意味推論フレームワークMM-VADを紹介する。
MM-VADは、固定特徴比較よりも適応的なテスト時間推論として異常検出を再構成する。
論文 参考訳(メタデータ) (2026-03-10T09:28:37Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - RDD: Robust Feature Detector and Descriptor using Deformable Transformer [8.01082121187363]
本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。
我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。
提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-12T19:24:45Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。