論文の概要: DeepDetect: Learning All-in-One Dense Keypoints
- arxiv url: http://arxiv.org/abs/2510.17422v2
- Date: Tue, 21 Oct 2025 05:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.038175
- Title: DeepDetect: Learning All-in-One Dense Keypoints
- Title(参考訳): DeepDetect: オールインワンのDenseキーポイントを学ぶ
- Authors: Shaharyar Ahmed Khan Tareen, Filza Khan Tareen,
- Abstract要約: DeepDetectは、インテリジェントでオールインワンで高密度なキーポイント検出器だ。
ディープラーニングを用いて古典的な検出器の強度を統一する。
DeepDetectは、キーポイント密度、再現性、正しいマッチの数で他の検出器を上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keypoint detection is the foundation of many computer vision tasks, including image registration, structure-from motion, 3D reconstruction, visual odometry, and SLAM. Traditional detectors (SIFT, SURF, ORB, BRISK, etc.) and learning based methods (SuperPoint, R2D2, LF-Net, D2-Net, etc.) have shown strong performance yet suffer from key limitations: sensitivity to photometric changes, low keypoint density and repeatability, limited adaptability to challenging scenes, and lack of semantic understanding, often failing to prioritize visually important regions. We present DeepDetect, an intelligent, all-in-one, dense keypoint detector that unifies the strengths of classical detectors using deep learning. Firstly, we create ground-truth masks by fusing outputs of 7 keypoint and 2 edge detectors, extracting diverse visual cues from corners and blobs to prominent edges and textures in the images. Afterwards, a lightweight and efficient model: ESPNet, is trained using these masks as labels, enabling DeepDetect to focus semantically on images while producing highly dense keypoints, that are adaptable to diverse and visually degraded conditions. Evaluations on the Oxford Affine Covariant Regions dataset demonstrate that DeepDetect surpasses other detectors in keypoint density, repeatability, and the number of correct matches, achieving maximum values of 0.5143 (average keypoint density), 0.9582 (average repeatability), and 59,003 (correct matches).
- Abstract(参考訳): キーポイント検出は、画像登録、構造からの移動、3D再構成、視覚計測、SLAMなど、多くのコンピュータビジョンタスクの基礎となっている。
従来の検出器(SIFT, SURF, ORB, BRISKなど)と学習ベースの手法(SuperPoint, R2D2, LF-Net, D2-Netなど)は、光度変化に対する感度、キーポイント密度と再現性、挑戦シーンへの適応性の制限、意味理解の欠如、視覚的に重要な領域の優先順位付けに失敗することが多い。
DeepDetectは、インテリジェントでオールインワンで高密度なキーポイント検出器で、ディープラーニングを使って古典的な検出器の強度を統一する。
まず、7つのキーポイントと2つのエッジ検出器の出力を融合させることで、角やブロブから様々な視覚的手がかりを抽出し、画像中の顕著なエッジやテクスチャを抽出する。
その後、軽量で効率的なモデルであるESPNetは、これらのマスクをラベルとして使用してトレーニングされるため、DeepDetectは、多様で視覚的に劣化した条件に適応する非常に高密度なキーポイントを生成しながら、画像に意味的にフォーカスすることができる。
オックスフォード・アフィン共変領域のデータセットによる評価は、DeepDetectがキーポイント密度、繰り返し可能性、および正しいマッチ数で他の検出器を上回り、0.5143(平均キーポイント密度)、0.9582(平均リピータビリティ)、59,003(正しいマッチ)の最大値を達成することを示した。
関連論文リスト
- Leveraging Geometric Priors for Unaligned Scene Change Detection [53.523333385654546]
Unaligned Scene Change Detectionは、視点アライメントを仮定することなく、異なるタイミングでキャプチャされた画像ペア間のシーン変化を検出することを目的としている。
非整合SCDの中核的課題に対処するために、初めて幾何学的事前を導入する。
視覚基盤モデルの強力な表現とそれらを統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-14T14:31:08Z) - Depth-Guided Self-Supervised Human Keypoint Detection via Cross-Modal Distillation [0.8136541584281987]
Distill-DKPは,キーポイント検出のためのクロスモーダルな知識蒸留フレームワークである。
Distill-DKPは、深度に基づく教師モデルから埋め込みレベルの知識を抽出し、画像に基づく学生モデルを指導する。
実験により、Distill-DKPは従来の教師なし手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-10-04T22:14:08Z) - Learning to Make Keypoints Sub-Pixel Accurate [80.55676599677824]
本研究は,2次元局所特徴の検出におけるサブピクセル精度の課題に対処する。
本稿では,検出された特徴に対するオフセットベクトルを学習することにより,サブピクセル精度で検出器を拡張できる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:39:56Z) - DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local
Feature Matching [14.837075102089]
キーポイント検出は3次元再構成において重要なステップであり、シーンの各ビューで最大K点のセットを検出する。
従来の学習に基づく手法は、通常、キーポイントを持つ記述子を学習し、キーポイント検出を隣り合う隣人の二項分類タスクとして扱う。
本研究は, キーポイントを3次元整合性から直接学習し, この目的を達成するための半教師付き2視点検出目標を導出する。
その結果,複数の幾何ベンチマークにおいて,DeDoDeという手法が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2023-08-16T16:37:02Z) - Pixel-Perfect Structure-from-Motion with Featuremetric Refinement [96.73365545609191]
複数視点からの低レベル画像情報を直接アライメントすることで、動きからの2つの重要なステップを洗練する。
これにより、様々なキーポイント検出器のカメラポーズとシーン形状の精度が大幅に向上する。
本システムは,大規模な画像コレクションに容易にスケールできるので,クラウドソースによる大規模なローカライゼーションを実現することができる。
論文 参考訳(メタデータ) (2021-08-18T17:58:55Z) - Multi-attentional Deepfake Detection [79.80308897734491]
ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。
新たなマルチアテンテーショナルディープフェイク検出ネットワークを提案する。
具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。
論文 参考訳(メタデータ) (2021-03-03T13:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。