論文の概要: RDD: Robust Feature Detector and Descriptor using Deformable Transformer
- arxiv url: http://arxiv.org/abs/2505.08013v1
- Date: Mon, 12 May 2025 19:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.315163
- Title: RDD: Robust Feature Detector and Descriptor using Deformable Transformer
- Title(参考訳): RDD:Deformable Transformer を用いたロバスト特徴検出器とディスクリプタ
- Authors: Gonglin Chen, Tianwen Fu, Haiwei Chen, Wenbin Teng, Hanyuan Xiao, Yajie Zhao,
- Abstract要約: 本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。
我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。
提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
- 参考スコア(独自算出の注目度): 8.01082121187363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a core step in structure-from-motion and SLAM, robust feature detection and description under challenging scenarios such as significant viewpoint changes remain unresolved despite their ubiquity. While recent works have identified the importance of local features in modeling geometric transformations, these methods fail to learn the visual cues present in long-range relationships. We present Robust Deformable Detector (RDD), a novel and robust keypoint detector/descriptor leveraging the deformable transformer, which captures global context and geometric invariance through deformable self-attention mechanisms. Specifically, we observed that deformable attention focuses on key locations, effectively reducing the search space complexity and modeling the geometric invariance. Furthermore, we collected an Air-to-Ground dataset for training in addition to the standard MegaDepth dataset. Our proposed method outperforms all state-of-the-art keypoint detection/description methods in sparse matching tasks and is also capable of semi-dense matching. To ensure comprehensive evaluation, we introduce two challenging benchmarks: one emphasizing large viewpoint and scale variations, and the other being an Air-to-Ground benchmark -- an evaluation setting that has recently gaining popularity for 3D reconstruction across different altitudes.
- Abstract(参考訳): 構造移動とSLAMにおける中核的なステップとして、重要な視点の変化のような困難なシナリオ下での堅牢な特徴の検出と記述は、その普遍性にもかかわらず未解決のままである。
近年の研究では、幾何学的変換のモデリングにおける局所的特徴の重要性が特定されているが、これらの手法は長距離関係に存在する視覚的手がかりを学ばない。
本稿では, 変形可能変圧器を利用した新規かつ堅牢なキーポイント検出/記述器であるRobust Deformable Detector(RDD)について述べる。
具体的には、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に低減し、幾何学的不変性をモデル化することを発見した。
さらに,標準的なMegaDepthデータセットに加えて,トレーニング用のAir-to-Groundデータセットも収集した。
提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れており,セミセンスマッチングも可能である。
総合的な評価を確保するために、大きな視点とスケールのバリエーションを強調した2つの挑戦的なベンチマークと、異なる高度にわたる3D再構築で最近人気を博したAir-to-Groundベンチマークを紹介した。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Enhancing Deformable Local Features by Jointly Learning to Detect and
Describe Keypoints [8.390939268280235]
局所特徴抽出は、画像マッチングや検索といった重要なタスクに対処するためのコンピュータビジョンにおける標準的なアプローチである。
鍵点を共同で検出・記述する新しい変形認識ネットワークであるDALFを提案する。
提案手法は、変形可能なオブジェクト検索と、非剛性な3次元表面登録という、2つの実世界のアプリケーションの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-02T18:01:51Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。