論文の概要: RoMa: Robust Dense Feature Matching
- arxiv url: http://arxiv.org/abs/2305.15404v2
- Date: Mon, 11 Dec 2023 13:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:16:11.588792
- Title: RoMa: Robust Dense Feature Matching
- Title(参考訳): RoMa:ロバストなDense機能マッチング
- Authors: Johan Edstedt, Qiyu Sun, Georg B\"okman, M{\aa}rten Wadenb\"ack,
Michael Felsberg
- Abstract要約: 特徴マッチングは、3Dシーンの2つの画像間の対応を推定する重要なコンピュータビジョンタスクである。
基礎モデルであるDINOv2の凍結事前学習機能を利用するモデルを提案する。
頑健性をさらに向上するために, 整列型トランスフォーマーマッチングデコーダを提案する。
- 参考スコア(独自算出の注目度): 17.015362716393216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature matching is an important computer vision task that involves
estimating correspondences between two images of a 3D scene, and dense methods
estimate all such correspondences. The aim is to learn a robust model, i.e., a
model able to match under challenging real-world changes. In this work, we
propose such a model, leveraging frozen pretrained features from the foundation
model DINOv2. Although these features are significantly more robust than local
features trained from scratch, they are inherently coarse. We therefore combine
them with specialized ConvNet fine features, creating a precisely localizable
feature pyramid. To further improve robustness, we propose a tailored
transformer match decoder that predicts anchor probabilities, which enables it
to express multimodality. Finally, we propose an improved loss formulation
through regression-by-classification with subsequent robust regression. We
conduct a comprehensive set of experiments that show that our method, RoMa,
achieves significant gains, setting a new state-of-the-art. In particular, we
achieve a 36% improvement on the extremely challenging WxBS benchmark. Code is
provided at https://github.com/Parskatt/RoMa
- Abstract(参考訳): 特徴マッチングは、3次元シーンの2つの画像間の対応を推定する重要なコンピュータビジョンタスクであり、密集した手法はこれらすべての対応を推定する。
目標は、現実世界の変化に挑戦してマッチ可能な、堅牢なモデル、すなわちモデルを学ぶことだ。
本研究では, 基礎モデルであるDINOv2の凍結事前学習機能を利用するモデルを提案する。
これらの機能は、スクラッチからトレーニングされたローカル機能よりもはるかに堅牢だが、本質的に粗い。
したがって、これらを特別なConvNet機能と組み合わせて、正確にローカライズ可能な機能ピラミッドを作成します。
さらにロバスト性を向上させるために, アンカー確率を予測し, マルチモーダル性を表現する変換器マッチングデコーダを提案する。
最後に,後続のロバスト回帰を伴う回帰別分類による損失定式化の改善を提案する。
我々は、RoMaという手法が大きな成果を上げ、新たな最先端を実現するための包括的な実験を行う。
特に、非常に難しいwxbsベンチマークで36%の改善を達成しました。
コードはhttps://github.com/Parskatt/RoMaで提供されている。
関連論文リスト
- Grounding Image Matching in 3D with MASt3R [8.14650201701567]
本稿では,トランスフォーマーをベースとした強力な3次元再構成フレームワークであるDUSt3Rによる3Dタスクのキャストマッチングを提案する。
我々は,DUSt3Rネットワークを高密度な局所的特徴を出力する新しいヘッドで拡張することを提案する。
提案手法はMASt3Rとよばれる手法で,複数のマッチングタスクにおいて技量を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-14T06:46:30Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。