論文の概要: HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning
- arxiv url: http://arxiv.org/abs/2005.05777v2
- Date: Thu, 26 Nov 2020 09:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:28:00.202325
- Title: HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning
- Title(参考訳): HDD-Net:相互対話型学習型ハイブリッド検出器
- Authors: Axel Barroso-Laguna, Yannick Verdie, Benjamin Busam, Krystian
Mikolajczyk
- Abstract要約: 局所的特徴抽出は、SLAMや3D再構成、ARアプリケーションといった分野の進歩により、現在も活発な研究領域である。
両抽出を個別に処理し,学習過程における相互作用に焦点を当てる手法を提案する。
我々は,カメラのローカライゼーション作業に匹敵せず,HPatchの画像マッチングと3次元再構成品質の観点から,技術状況の改善を示す。
- 参考スコア(独自算出の注目度): 24.13425816781179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local feature extraction remains an active research area due to the advances
in fields such as SLAM, 3D reconstructions, or AR applications. The success in
these applications relies on the performance of the feature detector and
descriptor. While the detector-descriptor interaction of most methods is based
on unifying in single network detections and descriptors, we propose a method
that treats both extractions independently and focuses on their interaction in
the learning process rather than by parameter sharing. We formulate the
classical hard-mining triplet loss as a new detector optimisation term to
refine candidate positions based on the descriptor map. We propose a dense
descriptor that uses a multi-scale approach and a hybrid combination of
hand-crafted and learned features to obtain rotation and scale robustness by
design. We evaluate our method extensively on different benchmarks and show
improvements over the state of the art in terms of image matching on HPatches
and 3D reconstruction quality while keeping on par on camera localisation
tasks.
- Abstract(参考訳): 局所特徴抽出は、SLAMや3D再構成、ARアプリケーションといった分野の進歩により、現在も活発な研究領域である。
これらのアプリケーションの成功は、特徴検出器と記述子の性能に依存する。
多くの手法の検出器/ディスクリプタ相互作用は単一ネットワーク検出と記述子の統合に基づいているが,抽出を独立に処理し,パラメータ共有よりも学習過程における相互作用に焦点を当てる手法を提案する。
従来のハードマイニング三重項損失を新しい検出器最適化項として定式化し,ディスクリプタマップに基づいて候補位置を洗練する。
本研究では,多元的手法と手作りと学習のハイブリッドな組み合わせを用いて,設計による回転とスケールのロバスト性を得る高密度ディスクリプタを提案する。
提案手法は,異なるベンチマークに基づいて広範囲に評価し,HPatchにおける画像マッチングと3次元再構成品質の観点から,カメラのローカライゼーションタスクを同等に保ちながら,技術状況の改善を示す。
関連論文リスト
- GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識は ユニセンサーシステムの弱点を克服する能力によって 注目を集めています
本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks [9.388897214344572]
2次元画像からの3次元3次元再構成はコンピュータビジョンにおける活発な研究分野である。
伝統的にこの作業にはパラメトリック技術が用いられてきた。
近年の進歩は、学習ベースの方法にシフトしている。
論文 参考訳(メタデータ) (2024-08-29T11:16:34Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Enhancing Deformable Local Features by Jointly Learning to Detect and
Describe Keypoints [8.390939268280235]
局所特徴抽出は、画像マッチングや検索といった重要なタスクに対処するためのコンピュータビジョンにおける標準的なアプローチである。
鍵点を共同で検出・記述する新しい変形認識ネットワークであるDALFを提案する。
提案手法は、変形可能なオブジェクト検索と、非剛性な3次元表面登録という、2つの実世界のアプリケーションの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-02T18:01:51Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - SEKD: Self-Evolving Keypoint Detection and Description [42.114065439674036]
ラベルのない自然画像から高度な局所特徴モデルを学ぶための自己教師型フレームワークを提案する。
提案手法は, ホモグラフィー推定, 相対的なポーズ推定, および動きからの構造的タスクについてベンチマークする。
トレーニングされたモデルとともに、コードを公開します。
論文 参考訳(メタデータ) (2020-06-09T06:56:50Z) - D2D: Keypoint Extraction with Describe to Detect Approach [48.0325745125635]
本稿では,ディスクリプタ空間内の情報を利用してキーポイント位置を提案する手法を提案する。
本稿では,まずキーポイント位置を記述し,次に検出することで,この過程を逆転する手法を提案する。
論文 参考訳(メタデータ) (2020-05-27T19:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。