論文の概要: RoMa: Revisiting Robust Losses for Dense Feature Matching
- arxiv url: http://arxiv.org/abs/2305.15404v1
- Date: Wed, 24 May 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 13:43:38.192166
- Title: RoMa: Revisiting Robust Losses for Dense Feature Matching
- Title(参考訳): RoMa: 複雑な特徴マッチングのためのロバストなロバストな損失を再考
- Authors: Johan Edstedt, Qiyu Sun, Georg B\"okman, M{\aa}rten Wadenb\"ack,
Michael Felsberg
- Abstract要約: マルコフ連鎖の観点から、マッチングに対するロバストな損失を再考する。
提案手法は,最先端技術と比較して大幅に改善されている。
- 参考スコア(独自算出の注目度): 15.654688635092953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense feature matching is an important computer vision task that involves
estimating all correspondences between two images of a 3D scene. In this paper,
we revisit robust losses for matching from a Markov chain perspective, yielding
theoretical insights and large gains in performance. We begin by constructing a
unifying formulation of matching as a Markov chain, based on which we identify
two key stages which we argue should be decoupled for matching. The first is
the coarse stage, where the estimated result needs to be globally consistent.
The second is the refinement stage, where the model needs precise localization
capabilities. Inspired by the insight that these stages concern distinct
issues, we propose a coarse matcher following the regression-by-classification
paradigm that provides excellent globally consistent, albeit not exactly
localized, matches. This is followed by a local feature refinement stage using
well-motivated robust regression losses, yielding extremely precise matches.
Our proposed approach, which we call RoMa, achieves significant improvements
compared to the state-of-the-art. Code is available at
https://github.com/Parskatt/RoMa
- Abstract(参考訳): Dense機能マッチングは、3Dシーンの2つの画像間のすべての対応を推定する重要なコンピュータビジョンタスクである。
本稿では,マルコフ連鎖の観点からのマッチングにおけるロバストな損失を再考し,理論的洞察と性能の大きな向上をもたらす。
まず、マッチングをマルコフ連鎖として統一的に定式化することから始め、マッチングのために分離すべき2つの重要な段階を特定する。
1つ目は粗い段階であり、そこでは推定結果がグローバルに一貫性を持たなければならない。
2つ目は、モデルが正確なローカライゼーション機能を必要とするリファインメントステージである。
これらの段階が異なる問題を考慮しているという洞察に触発されて、我々は、完全に局所化されていない優れたグローバルな一貫性を提供する回帰分類パラダイムに従う粗いマッチングを提案する。
これに続き、よく動機づけられたロバストな回帰損失を用いて、局所的な機能改善ステージが続き、非常に正確な一致が得られる。
提案手法はRoMaと呼ばれ,最先端技術と比較して大幅に改善されている。
コードはhttps://github.com/Parskatt/RoMaで入手できる。
関連論文リスト
- Grounding Image Matching in 3D with MASt3R [8.14650201701567]
本稿では,トランスフォーマーをベースとした強力な3次元再構成フレームワークであるDUSt3Rによる3Dタスクのキャストマッチングを提案する。
我々は,DUSt3Rネットワークを高密度な局所的特徴を出力する新しいヘッドで拡張することを提案する。
提案手法はMASt3Rとよばれる手法で,複数のマッチングタスクにおいて技量を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-14T06:46:30Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。