論文の概要: RoMa v2: Harder Better Faster Denser Feature Matching
- arxiv url: http://arxiv.org/abs/2511.15706v1
- Date: Wed, 19 Nov 2025 18:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.954482
- Title: RoMa v2: Harder Better Faster Denser Feature Matching
- Title(参考訳): RoMa v2:より高速なデンザー機能マッチング
- Authors: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg,
- Abstract要約: Dense Feature Matchは、3Dシーンの2つの画像間のすべての対応を推定することを目的としている。
既存の密集型マーカは、多くのハード・リアル・ワールド・シナリオで失敗したり、性能が悪くなったりします。
本稿では,これらの弱点を,一連の系統的な改善を通じて広範囲にわたって攻撃する。
- 参考スコア(独自算出の注目度): 56.71494120301684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense feature matching aims to estimate all correspondences between two images of a 3D scene and has recently been established as the gold-standard due to its high accuracy and robustness. However, existing dense matchers still fail or perform poorly for many hard real-world scenarios, and high-precision models are often slow, limiting their applicability. In this paper, we attack these weaknesses on a wide front through a series of systematic improvements that together yield a significantly better model. In particular, we construct a novel matching architecture and loss, which, combined with a curated diverse training distribution, enables our model to solve many complex matching tasks. We further make training faster through a decoupled two-stage matching-then-refinement pipeline, and at the same time, significantly reduce refinement memory usage through a custom CUDA kernel. Finally, we leverage the recent DINOv3 foundation model along with multiple other insights to make the model more robust and unbiased. In our extensive set of experiments we show that the resulting novel matcher sets a new state-of-the-art, being significantly more accurate than its predecessors. Code is available at https://github.com/Parskatt/romav2
- Abstract(参考訳): Dense特徴マッチングは、3Dシーンの2つの画像間のすべての対応を推定することを目的としており、最近ではその精度と堅牢性からゴールドスタンダードとして確立されている。
しかし、既存の密集型マーカは、多くのハードな現実世界のシナリオで依然として失敗または性能が悪く、高い精度のモデルがしばしば遅くなり、適用性が制限される。
本稿では,これらの弱点を,より優れたモデルが得られるような一連の体系的な改善を通じて,広い範囲で攻撃する。
特に,計算された多様な学習分布と組み合わせて,我々のモデルが多くの複雑なマッチングタスクを解くことができるような,新しいマッチングアーキテクチャと損失を構築する。
さらに、分離された2段階のマッチング-then-refinementパイプラインを通じて、トレーニングを高速化すると同時に、カスタムCUDAカーネルによる改善メモリ使用量を大幅に削減する。
最後に、最近のDINOv3ファウンデーションモデルと、他の複数の洞察を活用して、モデルをより堅牢で偏りのないものにします。
我々の広範な実験では、得られた新しいマッカーが新しい最先端のマッカーをセットし、前者よりもはるかに正確であることを示した。
コードはhttps://github.com/Parskatt/romav2で入手できる。
関連論文リスト
- Matcha: Multi-Stage Riemannian Flow Matching for Accurate and Physically Valid Molecular Docking [2.073256312593672]
マルチステージフローマッチングと学習したスコアリングと物理的妥当性フィルタリングを組み合わせた新しい分子ドッキングパイプラインであるMatchaを紹介する。
様々なアプローチと比較して、Matchaはドッキング成功率と物理的妥当性の観点からAstexとPDBbindテストセットで優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-16T11:44:24Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - RoMa: Robust Dense Feature Matching [17.015362716393216]
特徴マッチングは、3Dシーンの2つの画像間の対応を推定する重要なコンピュータビジョンタスクである。
基礎モデルであるDINOv2の凍結事前学習機能を利用するモデルを提案する。
頑健性をさらに向上するために, 整列型トランスフォーマーマッチングデコーダを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:04Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。