論文の概要: DaD: Distilled Reinforcement Learning for Diverse Keypoint Detection
- arxiv url: http://arxiv.org/abs/2503.07347v1
- Date: Mon, 10 Mar 2025 14:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:44.173989
- Title: DaD: Distilled Reinforcement Learning for Diverse Keypoint Detection
- Title(参考訳): DaD: 横キーポイント検出のための蒸留強化学習
- Authors: Johan Edstedt, Georg Bökman, Mårten Wadenbäck, Michael Felsberg,
- Abstract要約: キーポイントは、Structure-from-Motion(SfM)システムが数千の画像にスケールできるようにするものだ。
本稿では,キーポイント検出のための完全自己教師型かつ記述型な目的を,強化学習を通じて提案する。
我々のアプローチは、様々なベンチマークでSotAを大幅に改善します。
- 参考スコア(独自算出の注目度): 20.00650194907527
- License:
- Abstract: Keypoints are what enable Structure-from-Motion (SfM) systems to scale to thousands of images. However, designing a keypoint detection objective is a non-trivial task, as SfM is non-differentiable. Typically, an auxiliary objective involving a descriptor is optimized. This however induces a dependency on the descriptor, which is undesirable. In this paper we propose a fully self-supervised and descriptor-free objective for keypoint detection, through reinforcement learning. To ensure training does not degenerate, we leverage a balanced top-K sampling strategy. While this already produces competitive models, we find that two qualitatively different types of detectors emerge, which are only able to detect light and dark keypoints respectively. To remedy this, we train a third detector, DaD, that optimizes the Kullback-Leibler divergence of the pointwise maximum of both light and dark detectors. Our approach significantly improve upon SotA across a range of benchmarks. Code and model weights are publicly available at https:github.com/parskatt/dad
- Abstract(参考訳): キーポイントは、Structure-from-Motion(SfM)システムが数千の画像にスケールできるようにするものだ。
しかし、キーポイント検出の目的を設計することは、SfMが微分不可能であるため、非自明な作業である。
通常、記述子を含む補助的な目的が最適化される。
しかしこれは、望ましくないディスクリプタへの依存性を誘導する。
本稿では,キーポイント検出のための完全自己教師型かつ記述型な目的を,強化学習を通じて提案する。
トレーニングが退化しないように、バランスの取れたトップKサンプリング戦略を利用する。
これは既に競合するモデルを生成するが、2つの定性的に異なるタイプの検出器が出現し、それぞれ光と暗のキーポイントしか検出できないことがわかった。
これを改善するために、第3の検出器であるDaDを訓練し、光と暗の検出器の両方の点方向の最大値のクルバック・リーバーの偏差を最適化する。
当社のアプローチは、さまざまなベンチマークでSotAを大幅に改善しています。
コードとモデルの重み付けはhttps:github.com/parskatt/dadで公開されている。
関連論文リスト
- D3Former: Jointly Learning Repeatable Dense Detectors and
Feature-enhanced Descriptors via Saliency-guided Transformer [14.056531181678467]
我々は、リピータブルなtextbfDetector と機能強化された textbfDescriptors の合同学習を必要とする textitD3Former と呼ばれるサリエンシ誘導型 Transtextbfformer を導入する。
提案手法は,常に最先端のクラウドマッチング手法より優れている。
論文 参考訳(メタデータ) (2023-12-20T12:19:17Z) - DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local
Feature Matching [14.837075102089]
キーポイント検出は3次元再構成において重要なステップであり、シーンの各ビューで最大K点のセットを検出する。
従来の学習に基づく手法は、通常、キーポイントを持つ記述子を学習し、キーポイント検出を隣り合う隣人の二項分類タスクとして扱う。
本研究は, キーポイントを3次元整合性から直接学習し, この目的を達成するための半教師付き2視点検出目標を導出する。
その結果,複数の幾何ベンチマークにおいて,DeDoDeという手法が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2023-08-16T16:37:02Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Few-shot Keypoint Detection with Uncertainty Learning for Unseen Species [28.307200505494126]
本稿では,様々な種類のキーポイントを検出可能な汎用Few-shot Keypoint Detection (FSKD) パイプラインを提案する。
FSKDは主および補助的キーポイント表現学習、類似性学習、キーポイントローカライゼーションを含む。
FSKDが未確認種に対する新規キーポイント検出および(ii)FGVRおよび(iii)Semantic Alignment(SA)下流タスクに対する有効性を示した。
論文 参考訳(メタデータ) (2021-12-12T08:39:47Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Lite-FPN for Keypoint-based Monocular 3D Object Detection [18.03406686769539]
keypointベースのモノクロ3dオブジェクト検出は、非常に進歩し、高い速度精度のトレードオフを達成した。
マルチスケール機能融合を実現する軽量機能ピラミッドネットワークLite-FPNを提案します。
提案手法は,高い精度とフレームレートを同時に達成する。
論文 参考訳(メタデータ) (2021-05-01T14:44:31Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Solving Missing-Annotation Object Detection with Background
Recalibration Loss [49.42997894751021]
本稿では,新しい,かつ困難な検出シナリオに焦点を当てる。 真のオブジェクト/インスタンスの大部分は,データセットにラベル付けされていない。
従来, ソフトサンプリングを用いて, 正の例と重なり合うRoIsの勾配を再重み付けする手法が提案されてきた。
本稿では、予め定義されたIoU閾値と入力画像に基づいて損失信号を自動的に校正できる、バックグラウンド校正損失(BRL)と呼ばれる優れた解を提案する。
論文 参考訳(メタデータ) (2020-02-12T23:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。