論文の概要: LoMa: Local Feature Matching Revisited
- arxiv url: http://arxiv.org/abs/2604.04931v1
- Date: Mon, 06 Apr 2026 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.338357
- Title: LoMa: Local Feature Matching Revisited
- Title(参考訳): LoMa: ローカル機能マッチングが再検討
- Authors: David Nordström, Johan Edstedt, Georg Bökman, Jonathan Astermark, Anders Heyden, Viktor Larsson, Mårten Wadenbäck, Michael Felsberg, Fredrik Kahl,
- Abstract要約: 局所的特徴マッチングは、Structure-from-Motion (SfM) のような3次元視覚システムの基本コンポーネントとして長い間使われてきた。
本稿では,データ駆動の観点から局所的特徴マッチングを再考する。
大規模で多様なデータミックス、現代的なトレーニングレシピ、スケールされたモデルキャパシティ、スケールされた計算を組み合わせることで、パフォーマンスが著しく向上します。
- 参考スコア(独自算出の注目度): 56.73318466794448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local feature matching has long been a fundamental component of 3D vision systems such as Structure-from-Motion (SfM), yet progress has lagged behind the rapid advances of modern data-driven approaches. The newer approaches, such as feed-forward reconstruction models, have benefited extensively from scaling dataset sizes, whereas local feature matching models are still only trained on a few mid-sized datasets. In this paper, we revisit local feature matching from a data-driven perspective. In our approach, which we call LoMa, we combine large and diverse data mixtures, modern training recipes, scaled model capacity, and scaled compute, resulting in remarkable gains in performance. Since current standard benchmarks mainly rely on collecting sparse views from successful 3D reconstructions, the evaluation of progress in feature matching has been limited to relatively easy image pairs. To address the resulting saturation of benchmarks, we collect 1000 highly challenging image pairs from internet data into a new dataset called HardMatch. Ground truth correspondences for HardMatch are obtained via manual annotation by the authors. In our extensive benchmarking suite, we find that LoMa makes outstanding progress across the board, outperforming the state-of-the-art method ALIKED+LightGlue by +18.6 mAA on HardMatch, +29.5 mAA on WxBS, +21.4 (1m, 10$^\circ$) on InLoc, +24.2 AUC on RUBIK, and +12.4 mAA on IMC 2022. We release our code and models publicly at https://github.com/davnords/LoMa.
- Abstract(参考訳): 局所的な特徴マッチングは、Structure-from-Motion (SfM) のような3D視覚システムの基本コンポーネントとして長い間使われてきたが、現代のデータ駆動アプローチの急速な進歩に遅れを取っている。
フィードフォワード再構成モデルのような新しいアプローチは、データセットサイズをスケールすることから大きな恩恵を受けているが、ローカルな特徴マッチングモデルは、まだいくつかの中規模データセットでのみトレーニングされている。
本稿では,データ駆動の観点から局所的特徴マッチングを再考する。
LoMaと呼ばれるアプローチでは、大規模で多様なデータミックス、現代的なトレーニングレシピ、スケールされたモデルキャパシティ、スケールされた計算を組み合わせることで、パフォーマンスが著しく向上します。
現在の標準ベンチマークは、主に3次元再構成の成功によるスパースビューの収集に依存しているため、特徴マッチングの進捗評価は比較的容易な画像ペアに限られている。
ベンチマークの結果の飽和に対処するために、インターネットデータから1000の非常に困難なイメージペアを、HardMatchと呼ばれる新しいデータセットに収集する。
HardMatchの接地真理対応は、著者の手による注釈によって得られる。
我々の広範なベンチマークスイートでは、LoMaはボード全体で顕著な進歩を遂げており、AlIKED+LightGlueをHardMatchで+18.6 mAA、WxBSで+29.5 mAA、InLocで+21.4 (1m, 10$^\circ$)、RUBIKで+24.2 AUC、IMC 2022で+12.4 mAAで上回った。
コードとモデルはhttps://github.com/davnords/LoMa.comで公開しています。
関連論文リスト
- RoMa v2: Harder Better Faster Denser Feature Matching [56.71494120301684]
Dense Feature Matchは、3Dシーンの2つの画像間のすべての対応を推定することを目的としている。
既存の密集型マーカは、多くのハード・リアル・ワールド・シナリオで失敗したり、性能が悪くなったりします。
本稿では,これらの弱点を,一連の系統的な改善を通じて広範囲にわたって攻撃する。
論文 参考訳(メタデータ) (2025-11-19T18:59:38Z) - Cluster and Predict Latent Patches for Improved Masked Image Modeling [25.616762947410045]
我々は,潜在クラスタリングの予測に依存する新しい純粋なMIMフレームワークであるCAPIを紹介する。
このアプローチでは,トレーニングに安定なクラスタリングベースの損失を活用し,有望なスケーリング特性を示す。
我々のVT-LバックボーンであるCAPIは、ImageNetで83.8%、ADE20Kで32.1%のmIoUを単純な線形プローブで達成している。
論文 参考訳(メタデータ) (2025-02-12T20:17:10Z) - Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba [48.45301469664908]
1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。
既存のSOTA法では、3Dハンドポーズと形状を学ぶためにアテンションベースのトランスフォーマーを採用している。
本稿では,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:04:58Z) - RoMa: Robust Dense Feature Matching [17.015362716393216]
特徴マッチングは、3Dシーンの2つの画像間の対応を推定する重要なコンピュータビジョンタスクである。
基礎モデルであるDINOv2の凍結事前学習機能を利用するモデルを提案する。
頑健性をさらに向上するために, 整列型トランスフォーマーマッチングデコーダを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:04Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z) - MVHM: A Large-Scale Multi-View Hand Mesh Benchmark for Accurate 3D Hand
Pose Estimation [32.12879364117658]
1枚のRGB画像から3Dハンドポーズを推定することは困難である。
我々は、任意のターゲットメッシュ基底真理に一致する剛性メッシュモデルを可能にするスピンマッチングアルゴリズムを設計する。
提案手法は,提案するデータセットを用いて手ポーズ推定器の訓練が性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-12-06T07:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。